Deduplikacja danych

Deduplikacja danych polega na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie. Duplikaty powstają przy ręcznym wprowadzaniu danych na skutek literówek a także przy łączeniu różnych baz danych. 

Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup:

  • rekordów takich samych,
  • podobnych,
  • różnych.

Nawet w bazach danych, w których został przeprowadzony proces standaryzacji nie da się uniknąć różnic w zapisie (np. może być różna kolejność wyrazów). Algorytmy wyszukiwania i porównywania niwelują tą niedogodność oraz doskonale radzą sobie z duże większymi błędami zapisu.

Deduplikacja danych przynosi wiele korzyści:

  • pozwala na połączenie różnych zbiorów danych, które nie mają jednoznacznego identyfikatora, np numeru NIP
  • pozwala uzupełnić dane w systemie na podstawie danych pochodzących z innego źródła, np. działań marketingowych
  • poprawia jakość danych w systemach CRM, gdy powtarzające się rekordy komplikują pracę działu handlowego
  • wyeliminowane powtarzających się rekordów przed wysyłką materiałów pocztą pozwala na ograniczenie kosztów wysyłki
  • przy budowie hurtowni danych, gdy mapowane są dane pochodzące z różnych źródeł