|
|||||||||
![]() |
|||||||||
Deduplikacja danych
Deduplikacja danych polega na znalezieniu takich samych rekordów
pomimo różnic, błędów i literówek w zapisie:
Duplikaty powstają przy ręcznym wprowadzaniu danych na skutek literówek, przy łączeniu różnych baz. Ich ilość w bazach, które nie były weryfikowane potrafi osiągać nawet kilkanaście procent. Podobne rekordy są wyszukiwane za pomocą zaawansowanych algorytmów, a następnie jest oceniane ich podobieństwo. Pary znalezionych rekordów są kwalifikowane do jednej z trzech grup: rekordów takich samych, podobnych i różnych.
Deduplikacja danych to oszczędność.
Biorąc pod uwagę sam koszt znaczka pocztowego i perspektywę jednorazowej wysyłki,
deduplikacja opłaca się, jeżeli w bazie zostanie zidentyfikowanych już 2% dubletów
(powtarzających się rekordów). W przypadku wysyłki droższych i cięższych materiałów
(np. katalogów, reklam itp.)
deduplikacja może się opłacać, jeżeli w bazie danych jest więcej niż 0.1% - 0.2% dubletów.
Deduplikacja danych stosowana jest w wielu przypadkach. Najczęściej stosuje się ją:
|
Standaryzacja danych polega na poprawieniu formy zapisu, sprawdzeniu względem słownika danych i zapisaniu ich według jednego, ustalonego formatu. [...] | ||||||||
|
|||||||||