Deduplikacja danych

Deduplikacja danych polega na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie. Duplikaty powstają przy ręcznym wprowadzaniu danych na skutek literówek a także przy łączeniu różnych baz danych.

Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup:

rekordów takich samych,
podobnych,
różnych.

Nawet w bazach danych, w których został przeprowadzony proces standaryzacji nie da się uniknąć różnic w zapisie (np. może być różna kolejność wyrazów). Algorytmy wyszukiwania i porównywania niwelują tą niedogodność oraz doskonale radzą sobie z duże większymi błędami zapisu.

Deduplikacja danych przynosi wiele korzyści:

pozwala na połączenie różnych zbiorów danych, które nie mają jednoznacznego identyfikatora, np numeru NIP
pozwala uzupełnić dane w systemie na podstawie danych pochodzących z innego źródła, np. działań marketingowych
poprawia jakość danych w systemach CRM, gdy powtarzające się rekordy komplikują pracę działu handlowego
wyeliminowane powtarzających się rekordów przed wysyłką materiałów pocztą pozwala na ograniczenie kosztów wysyłki
przy budowie hurtowni danych, gdy mapowane są dane pochodzące z różnych źródeł