Adattisztítás feladvány

Adattisztítás feladvány. 👇

Az adathalmazunkban adott egy whisky neve. Mi az az adattisztítási módszer, amivel megtudhatjuk ez alapján a whisky márkáját is? Elsőre egyszerűnek tűnik, de aztán jönnek a különleges esetek…

  1. Az első „heurisztika”, ami nem működik: legyen mindig a whisky nevének az első szava a márkanév. Egyértelmű miért nem működik: vannak két szavas márkanevek is. ¯\_(ツ)_/¯
  2. A második „heurisztika”, ami nem működik: minden „__ Year Old” mintázat előtti karakterlánc legyen a márkanév. Sajnos ez sem működik — lásd 5. sor: Glenfiddich példa.
  3. ….

Kb. két éve futottam bele ebbe a kérdésbe és bevallom, a megoldáson én sok órát gondolkoztam, mire meglett. Pedig igazából egy pofonegyszerű és nagyon sok adattisztítási projektben használható általános elv segített.

A megoldást pedig a hírlevelemben leplezem le.
Akit érdekel, iratkozzon fel ITT.

Üdv,
Tomi