Blog

Datenbereinigung und Qualität der Datensatzverknüpfung

Die Datensatzverknüpfung ist eine Methode zur Verknüpfung von Datensätzen mit denselben Entitäten, wie z. B. Kunden. Die Datensatzverknüpfung kann zur Verbesserung der Qualität und Integrität von Daten eingesetzt werden, um die Wiederverwendung bestehender Datenquellen zu ermöglichen. Bei der Bearbeitung von Daten aus verschiedenen Quellen, ob es sich nun um Bewertungen, interne Daten, externe Datenanbieter oder aus dem Internet gesammelte Daten handelt, möchten wir oft Personen oder Unternehmen in den Datensätzen miteinander verknüpfen. Unglücklicherweise beginnen wir fast nie mit nahtlos sauberen Daten. Bei der Verwendung strukturierter Daten unterlaufen dem Einzelnen Flüchtigkeitsfehler wie das Verwechseln von Buchstaben in Namen, einzelne Werte werden falsch erfasst, und Messfehler wirken sich auf die Ergebnisse aus. Bevor wir in die Daten eindringen können, kann eine Vielzahl von Dingen geschehen. Gelegentlich, und das ist vielleicht noch ärgerlicher, verwenden verschiedene Quellen einfach unterschiedliche Namen für die gleiche Einheit. Aufgrund dieser kleinen Unterschiede ist es schrecklich, die Daten nur anhand der eindeutigen Identifikatoren zusammenzuführen. Das Verfahren zur Verknüpfung von Personen- oder Unternehmensdaten aus verschiedenen Quellen wird als Datensatzverknüpfung bezeichnet. Die Datensatzverknüpfung (Record Linkage, RL) ist der Prozess des Auffindens desselben Datensatzes in verschiedenen Datensätzen. Bei den Aufzeichnungen kann es sich um Personen, Bücher usw. handeln. Sie hat sich zu einer wichtigen Disziplin in der Informatik und bei Big Data entwickelt.

Unabhängig davon, welche Verknüpfungsmethode verwendet wird, steht am Anfang des Verknüpfungsverfahrens in der Regel eine Datenbereinigungsphase. Die Datenbereinigung (gelegentlich auch als Datenstandardisierung oder Datenbereinigung bezeichnet) umfasst die Änderung, Beseitigung oder anderweitige Veränderung von Feldern auf der Grundlage ihrer Werte. Es wird erwartet, dass diese neuen Werte die Qualität der Daten verbessern und somit für den Verknüpfungsprozess wertvoller sind. Es gibt zwei Arten der Datenverknüpfung, darunter:
Deterministisch
Die deterministische Datensatzverknüpfung erzeugt Assoziationen, die auf der Anzahl der separaten Identifikatoren basieren, die in den vorhandenen Datengruppen gleich sind. Es wird angenommen, dass zwei Datensätze durch einen deterministischen Datensatzzuordnungsprozess übereinstimmen, wenn alle oder einige Identifikatoren gleich sind.
Probabilistisch
Diese Methode, gelegentlich auch als Fuzzy Matchingbezeichnet eine andere Methode für das Problem der Datensatzverknüpfung anwenden, indem sie eine breitere Palette potenzieller Identifikatoren in Betracht ziehen, für jeden Identifikator Gewichte auf der Grundlage seiner voraussichtlichen Fähigkeit, eine Übereinstimmung oder Nicht-Übereinstimmung richtig zu klassifizieren, berechnen und diese Gewichte verwenden, um die Wahrscheinlichkeit zu berechnen, dass sich zwei angenommene Datensätze auf die gleiche Entität beziehen. Datensatzpaare mit Wahrscheinlichkeiten über einer bestimmten Kante werden als Übereinstimmungen betrachtet, während Paare mit Wahrscheinlichkeiten unter einer anderen Kante als Nicht-Übereinstimmungen betrachtet werden; Paare, die zwischen diese beiden Kanten fallen, werden als „mögliche Übereinstimmungen“ betrachtet und können entsprechend behandelt werden.
Herausforderung bei der Datensatzverknüpfung
Eine große Herausforderung bei der Verknüpfung von Datensätzen ist das Fehlen gemeinsamer Objektidentifikatoren in den verschiedenen zu koordinierenden Quellsystemen. Daher muss der Abgleich anhand von Eigenschaften erfolgen, die teilweise identifizierende Informationen enthalten, wie Namen, Adressen oder Geburtsdaten. Obwohl solche klassifizierenden Informationen oft von geringer Qualität sind und insbesondere unter regelmäßig auftretenden typografischen Unterschieden und Fehlern leiden, können sich solche Informationen im Laufe der Zeit ändern, menschliche Fehler auftreten oder sie sind nur teilweise in den zu koordinierenden Quellen vorhanden. In den letzten zehn Jahren wurden erhebliche Fortschritte bei verschiedenen Aspekten des Datensatzverknüpfungsprozesses erzielt, insbesondere bei der Frage, wie die Genauigkeit des Datenabgleichs erhöht werden kann und wie der Datenabgleich bei sehr großen Systemen mit Millionen von Datensätzen gemessen werden kann.

Datenqualität und Datenbereinigung

Der Prozess der Datenbereinigung umfasst das Entfernen von überflüssigen, veralteten oder falschen Daten. Saubere Daten sind ein entscheidendes Element für korrekte Informationen, Berichte und Analysen. Im gesamten Unternehmen treffen Einzelpersonen Geschäftsentscheidungen auf der Grundlage von Daten, die ihnen zur Verfügung gestellt werden. Die Datenbereinigung bietet qualitativ hochwertige Daten, die dazu beitragen, die Herausforderungen des Betrugs zu bewältigen und die Unternehmen in die Lage versetzen, die Vorschriften einzuhalten. Qualitativ hochwertige Daten über wichtige Geschäftseinheiten bieten den Wachstumskanal für ein erfolgreiches Unternehmen.
Durch den Einsatz von Datenbereinigungstechniken können die Unternehmen Duplikate in ihren Daten schnell abgleichen und erkennen. Saubere Kundendaten ermöglichen einen effektiven Verkauf und Werbung und helfen dem Unternehmen zu wachsen. Stellen Sie sich vor, dass Sie denselben Kunden mehrmals kontaktieren, nur weil er mehrere Einträge im System hat – kostspielig und zeitaufwändig für die Vertriebs- und Supportmitarbeiter, schwierig für den Datenanalysten, mühsam für den BI-Entwickler und frustrierend für den Kunden. Schlechte Datenqualität wirkt sich auch auf den Markenwert aus und schadet dem Kundenerlebnis.
Auswahl der Schlüsselattribute in der Datensatzverknüpfung
Dazu gehört die Auswahl der besten Merkmale, anhand derer wir zwei ähnliche Personen unterscheiden können. Für einzelne Datensätze sind Name, Vorname, Nachname, Adresse und E-Mail die wichtigsten Merkmale. Ziel ist es, für ein Datensatzpaar einen „Vergleichsvektor“ von Ähnlichkeitswerten für jedes Komponentenattribut zu erstellen. Ähnlichkeitsbewertungen können einfach boolesch sein (übereinstimmend oder nicht übereinstimmend) oder sie können tatsächliche Werte mit Abstandsfunktionen sein.

Prototyping

Dazu gehört die Entwicklung von Programmen zur Verknüpfung von Datensätzen und zur Datenverarbeitung von kleinen Datenproben, bevor sie auf den gesamten Datensatz angewendet werden. Normalerweise ist die Größe der Datensätze riesig und erfordert viel Zeit und Berechnungen. Dies hilft bei der Optimierung der Algorithmen und des Prozesses der Datensatzverknüpfung, da sich die Durchlaufzeit bei der Durchführung von Tests erheblich verringert. Es ist wichtig, dass die Stichprobe den tatsächlichen Datensatz repräsentiert.

Paarweiser Abgleich

Nach der Konstruktion eines Vektors komponentenweiser Ähnlichkeiten für ein Paar von Datensätzen ist es wichtig, die Wahrscheinlichkeit zu berechnen, dass das aufgezeichnete Paar übereinstimmt. Es gibt zahlreiche Methoden, um die Wahrscheinlichkeit einer Übereinstimmung zu ermitteln. Zwei einfache Methoden sind die Verwendung einer gewichteten Summe oder eines Durchschnitts der Ähnlichkeitswerte der Komponenten. Eine andere einfache Methode ist die Anwendung des regelbasierten Abgleichs, aber die manuelle Erstellung ist schwierig. Die Ähnlichkeitswerte werden auf der Grundlage verschiedener Algorithmen erzeugt, die in der Regel auf String-Matching beruhen, darunter Edit-Distance- und Fuzzy-String-Matching-Algorithmen.

Leistungsmessung

Die Qualität der Datensatzverknüpfung kann anhand der folgenden Dimension gemessen werden:

  • Die Anzahl der korrekt verknüpften Datensatzpaare (True Positives)
  • Anzahl der fehlerhaft verknüpften Datensatzpaare (falsch-positive Ergebnisse, Fehler vom Typ I)
  • Die Anzahl der korrekt entkoppelten Datensatzpaare (echte Negative)

Die Anzahl der fälschlicherweise nicht verknüpften Datensatzpaare (falsch negativ, Typ-II-Fehler).

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.