RASoft
quote
 

Deduplikacja danych

Deduplikacja danych polega na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie:

Przykład par po deduplikacji: kliknij aby powiekszyć

Duplikaty powstają przy ręcznym wprowadzaniu danych na skutek literówek, przy łączeniu różnych baz. Ich ilość w bazach, które nie były weryfikowane potrafi osiągać nawet kilkanaście procent.

Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup: rekordów takich samych, podobnych i różnych.


Deduplikacja danych to oszczędność. Biorąc pod uwagę sam koszt znaczka pocztowego i perspektywę jednorazowej wysyłki, deduplikacja opłaca się, jeżeli w bazie zostanie zidentyfikowanych już 2% dubletów (powtarzających się rekordów). W przypadku wysyłki droższych i cięższych materiałów (np. katalogów, reklam itp.) deduplikacja może się opłacać, jeżeli w bazie danych jest więcej niż 0.1% - 0.2% dubletów.
Oznacza to, że jeżeli z bazy 1000 rekordów wykluczymy więcej niż 1-2 powtarzające się rekordy, to zwróci się koszt deduplikacji, a znalezienie każdego kolejnego dubletu jest już czystym zyskiem.


Deduplikacja danych stosowana jest w wielu przypadkach. Najczęściej stosuje się ją:

  • przy łączeniu baz danych z różnych systemów
  • w celu uzupełnienia danych w jednej bazie danymi z innej bazy
  • w systemach CRM, gdy powtarzające się rekordy komplikują pracę działu handlowego
  • w celu wyeliminowania powtarzających się rekordów przed wysyłką materiałów pocztą, co pozwala na znaczne ograniczenie kosztów wysyłki
  • przy budowie hurtowni danych, aby móc połączyć informacje o klientach, którzy nie mają unikalnego numeru typu NIP, PESEL.

Standaryzacja danych polega na poprawieniu formy zapisu, sprawdzeniu względem słownika danych i zapisaniu ich według jednego, ustalonego formatu. [...]
 
Copyright RASoft Opracowanie na podstawie Free CSS Templates katalog stron