Deduplikacja danych polega na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie. Duplikaty powstają przy ręcznym wprowadzaniu danych na skutek literówek a także przy łączeniu różnych baz danych.
Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup:
- rekordów takich samych,
- podobnych,
- różnych.
Nawet w bazach danych, w których został przeprowadzony proces standaryzacji nie da się uniknąć różnic w zapisie (np. może być różna kolejność wyrazów). Algorytmy wyszukiwania i porównywania niwelują tą niedogodność oraz doskonale radzą sobie z duże większymi błędami zapisu.
Deduplikacja danych przynosi wiele korzyści:
- pozwala na połączenie różnych zbiorów danych, które nie mają jednoznacznego identyfikatora, np numeru NIP
- pozwala uzupełnić dane w systemie na podstawie danych pochodzących z innego źródła, np. działań marketingowych
- poprawia jakość danych w systemach CRM, gdy powtarzające się rekordy komplikują pracę działu handlowego
- wyeliminowane powtarzających się rekordów przed wysyłką materiałów pocztą pozwala na ograniczenie kosztów wysyłki
- przy budowie hurtowni danych, gdy mapowane są dane pochodzące z różnych źródeł