Adattisztítás feladvány. 👇
Az adathalmazunkban adott egy whisky neve. Mi az az adattisztítási módszer, amivel megtudhatjuk ez alapján a whisky márkáját is? Elsőre egyszerűnek tűnik, de aztán jönnek a különleges esetek…
- Az első „heurisztika”, ami nem működik: legyen mindig a whisky nevének az első szava a márkanév. Egyértelmű miért nem működik: vannak két szavas márkanevek is. ¯\_(ツ)_/¯
- A második „heurisztika”, ami nem működik: minden „__ Year Old” mintázat előtti karakterlánc legyen a márkanév. Sajnos ez sem működik — lásd 5. sor: Glenfiddich példa.
- ….

Kb. két éve futottam bele ebbe a kérdésbe és bevallom, a megoldáson én sok órát gondolkoztam, mire meglett. Pedig igazából egy pofonegyszerű és nagyon sok adattisztítási projektben használható általános elv segített.
A megoldást pedig a hírlevelemben leplezem le.
Akit érdekel, iratkozzon fel ITT.
Üdv,
Tomi