Blog

Datenbereinigungstechniken für Redundanzen

Der Umgang mit doppelten Daten erfordert eine Strategie für den Umgang mit inkonsistenten Daten. Der erste Schritt wäre die Standardisierung von Adressen mit Hilfe einer Software zum Datenabgleich. Zweitens sollten Sie sicherstellen, dass Sie Dateneingabeprogramme verwenden, die Feldformate validieren, um Fehler zu vermeiden, wie z. B. die Eingabe von Namen in ein Telefonnummernfeld. Es ist wichtig, alle Datensätze zu finden, die in einem oder mehreren Feldern genau oder annähernd die gleichen Daten enthalten. Sehen Sie sich das folgende Beispiel mit fünf Datensätzen an, die jeweils sechs Felder enthalten:
Name Adresse Ort PLZ® Telefon
—— —————– ———— — ———- ————–
1 DAVIS 115 E 1ST ST CLEBURNE TX 76031-2407 (817) 458 9992
2 DAVIS 1 115 ST EAST CLEBURNE TX 76031
3 DAVIS 1 EAST 15TH CLEBURNE DR TX 817-458-9992
4 DAVIS 1 E FIFTEENTH ST CLEBURNE TX 76031 458-9992
5 DAVIS ONE EAST 15TH ST CLEBURNE TX 76031 817-458-9991

Sie werden sehen, dass sich alle fünf oben genannten Datensätze auf dieselbe Person unter derselben Adresse beziehen; keine zwei Datensätze sind genau gleich. Überlegen Sie dann, wie Sie versuchen können, Duplikate in der Datei zu finden:
DURCHSUCHEN 1: Wählen Sie Datensätze mit demselben Adressfeld aus. Findet keinen der oben genannten Datensätze.
DURCHSUCHEN 2: Wählen Sie Datensätze mit demselben Namen und derselben fünfstelligen Postleitzahl aus. Verpasst die Datensätze 1, 3 und 5.
BROWSE 3: Wählen Sie Datensätze mit dem Namen „DAVIS“. Die Datensätze 2 und 3 fehlen (während sie wahrscheinlich mit vielen anderen DAVIS‘ an anderen Adressen übereinstimmen).
Nach Abschluss der Adresskorrektur und der Feldüberprüfung werden die oben aufgeführten Muster zu solchen:
Name Adresse Ort St PLZ Telefon
—– ———– ——- — ———- ————
1 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
2 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407
3 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
4 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 XXX-458-9992
5 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992

Sobald Sie die Standardisierung abgeschlossen haben, werden die Versuche zur Erkennung von Duplikaten erheblich verbessert und die Chancen, die richtige Gruppe von Duplikaten zu finden, werden größer. Die Auswahl „Datensätze mit gleicher Adresse, Postleitzahl und Soundexname“ ist ein Versuch, der im obigen Beispiel perfekt funktioniert.

Wenn Sie sich auf den Weg machen, Redundanzen und Duplikate zu beseitigen, ist Data Ladder Ihr Partner und analytischer Experte. Wir können Einfachheit und Klarheit in ein ansonsten verworrenes und kompliziertes Projekt bringen. Vertrauen Sie darauf, dass Data Ladder Ihnen helfen wird, Ihre Datenqualitätsprobleme zu lösen und die Qualität und finanzielle Leistung messbar zu verbessern. Kontaktieren Sie uns, um weitere Informationen zu erhalten und Ihre kostenlose Testversion zu bestellen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.