Blog

Matching Evolution: Unternehmensweites Finden von Übereinstimmungen und moderne Feinabstimmung der Ergebnisse



A
ie Dateneinem Paradigmenwechsel unterliegtso auch die beteiligten Systeme, Verfahren und Ansätze. Die alten Systeme sterben aus. Stapel ETL-Pipelines werden langsam obsolet. Die Eigentümerschaft verlagert sich von IT an Unternehmen.
Funktionen wie Datenabgleich und Datenaufbereitung werden
entwickeln sich weiter
Funktionen wie Datenabgleich und Datenaufbereitung entwickeln sich von manuellen, abfragebasierten, programmatischen zu automatisierten, geschäftsorientierten Point-and-Click-Funktionen.


-zentrierten
Prozesse.

Es gibt einen modernen Ansatz für den Datenabgleich, der hohe Genauigkeitsraten und geringe Fehlalarme verspricht und nur Minuten statt Wochen und Monate dauert.

Dieser Leitfaden zum modernen Datenabgleich erläutert die damit verbundenen Prozesse, die verschiedenen Arten von Szenarien, in denen dieser Ansatz Zeit spart und gleichzeitig die Effizienz steigert, und schließlich, wie die Benutzer die Abgleichsparameter anpassen können, um die bestmöglichen Übereinstimmungen zu erzielen.

Was ist Datenabgleich?

DerDatenabgleich vergleicht Daten aus mehreren Datensätzen, um Felder zu ermitteln, die sich auf dieselbe Entität beziehen. Einfach ausgedrückt, ermöglicht der Datenabgleich dem Benutzer, doppelte Datensätze zu erkennen oder/und identische Datensätze zusammenzuführen. Dabei werden bewährte Algorithmen verwendet, die für den Vergleich verschiedener Datentypen wie Zeichenketten, Datumsangaben und ganze Zahlen ausgelegt sind. Da die Art der Daten immer komplexer wird, geht es beim Abgleich nicht mehr nur um den Vergleich zweier Datensätze, sondern um Schlüsselprozesse wie Datenprofilierung, Datenvollständigkeit, Datengenauigkeit und mehr.

Die Grundlagen – Deterministischer und probabilistischer Abgleich

Bekannt unter den Begriffen Datensatz- oder Datenverknüpfung, Entitätsauflösung, Objektidentifizierung oder Feldabgleich; Datenabgleich ist die Aufgabe der Identifizierung, des Abgleichs und der Zusammenführung von Datensätzen, die sich auf dieselbe Entität innerhalb oder über mehrere Datenbanken hinweg beziehen.

Traditionell wurde der Datenabgleich durch die Ausführung von Abfragen unter Verwendung komplexer Algorithmen und Formeln zum Abgleich von Datensätzen durchgeführt. Deterministischer und probabilistischer Abgleich sind die beiden gängigsten Ansätze für den Datenabgleich, bei denen Algorithmen wie die Edit-Distanz, Soundex und Levenshtein-Distanz verwendet werden, um Zeichenfolgen abzugleichen und ein entsprechendes Ergebnis zu liefern.

Die deterministische Methode ist einfach. Wenn Sie zwei Datenfelder haben, die exakt die gleichen Eigenschaften haben, können Sie diese Methode verwenden, um Übereinstimmungen zu finden. Die Bedingung ist, dass Ihre Daten blitzsauber und standardisiert sein müssen. Eindeutige Identifikatoren wie Sozialversicherungsnummern, Führerschein- und Reisepassnummern müssen korrekt sein. Leichter gesagt als getan, zumal es immer die Möglichkeit von Benutzerfehlern gibt. Da es sich um vertrauliche Informationen handelt, ist die Wahrscheinlichkeit gering, dass die Unternehmen diese Informationen in die Hände bekommen. Sie greifen dann auf Telefonnummern und E-Mail-Adressen als eindeutige Identifikatoren zurück. Andererseits sind diese Daten immer mit Fehlern, Nullwerten und anderen Problemen der Datenqualität behaftet.

Ein gutes Beispiel für einen deterministischen Abgleich ist der Abgleich von Kontonummern mit Namen und Geburtsdatum, um Identitäten zu bestätigen, oder der Abgleich von Rechnungsnummern mit Produktnummern in Einzelhandelsgeschäften, um Produktverkäufe zu bestätigen.

Der deterministische Abgleich funktioniert gut, wenn Regeln definiert sind, die Daten sauber sind und Sie sicher sind, dass die eindeutigen Bezeichner korrekt sind.

Aber die Daten, die wir heute haben, erfüllen diese Regeln kaum.

Daher die Notwendigkeit eines probabilistischen Abgleichs.

Der probabilistische Abgleich verwendet einen statistischen Ansatz zur Messung der Wahrscheinlichkeit, dass zwei Kundendatensätze dieselbe Person darstellen. Diese Methode verwendet mehrere Fuzzy-Matching-Algorithmen, um eine Übereinstimmung, Nicht-Übereinstimmung oder mögliche Übereinstimmung festzustellen. Wie ein deterministischer Abgleich setzt auch der probabilistische Abgleich saubere und standardisierte Daten voraus, aber er muss nicht „exakt“ sein.

Wenn John als Johnny geschrieben wird, sollte eine intelligente Datenabgleichslösung in der Lage sein, dies auf der Grundlage bestimmter Geschäftsregeln, die in der Regel in einer kommerziellen Lösung vordefiniert sind, als mögliche Übereinstimmung zu erkennen.

Ein gutes Beispiel für einen probabilistischen Abgleich ist, wenn ein Unternehmen über mehrere E-Mail-Adressen und Telefonnummern (Handy/Büro/Heim) ein und derselben Person verfügt, ohne dass eindeutige Identifikatoren zur Bestimmung der Identität vorliegen. In diesem Fall muss das Unternehmen mehrere Algorithmen ausführen, um die Identität anhand von Zeichenketten und Ganzzahlwerten zu ermitteln.

Hier kommen die Fuzzy-Matching-Algorithmen ins Spiel.

Anstatt Datensätze als „übereinstimmend“ oder „nicht übereinstimmend“ zu kennzeichnen, ermittelt der unscharfe Abgleich die Wahrscheinlichkeit, dass zwei Datensätze tatsächlich übereinstimmen, und zwar auf der Grundlage der Übereinstimmung oder Nichtübereinstimmung der verschiedenen Identifikatoren. Hier finden Sie eine Liste der verschiedenen Fuzzy-Matching-Techniken, die heute verwendet werden:

  • Levenshtein-Distanz (oder Edit-Distanz)
  • Damerau-Levenshtein-Abstand
  • Jaro-Winkler Abstand
  • Tastaturabstand
  • Kullback-Leibler-Abstand
  • Jaccard-Index
  • Metaphon 3
  • Name Variante
  • Silbenausrichtung
  • Akronym

Lesen Sie den folgenden Leitfaden, um mehr über Fuzzy Matching zu erfahren und wie es Ihnen beim Abgleich komplexer Daten helfen kann.

Fuzzy-Matching-Leitfaden

Bereinigung und Verknüpfung ungeordneter Daten im gesamten Unternehmen

Der moderne Datenabgleich verwendet sowohl deterministische als auch probabilistische Ansätze, je nach Art der Daten und der Art des Abgleichs, den das Unternehmen durchführen muss.

Für beide Methoden gilt, dass eine gemeinsame Voraussetzung für alle erfolgreichen Matching-Projekte die Datenqualität ist, die durch die Datenaufbereitung erreicht wird.

Daten für den Datenabgleich vorbereiten

Die Natur der Daten ist heute alles andere als einfach. Ein Unternehmen kann Dutzende von Datenspalten haben – Telefonnummern (privat, Büro, Handy), E-Mail-Adressen (privat/beruflich), Konten in sozialen Medien, Geräte-IDs und vieles mehr. Diese Daten sind kaum genau.

Um diese Daten abzugleichen, müssten sie einem Datenbereinigungs- und Standardisierungsprozess unterzogen werden.

Moderne Datenabgleichstools wie DataMatch Enterprise von Data Ladder ermöglichen einen automatisierten Datenaufbereitungsprozess.

Diese lassen sich wie folgt zusammenfassen:

Verfahren

Zweck

Datenintegration

DataMatch Enterprise ermöglicht die native Integration von über 500 Datenquellen, darunter beliebte CRMs wie Salesforce, HubSpot und viele mehr.

Datenprofilierung

Prüfen Sie die Daten auf Richtigkeit und Vollständigkeit. Mit Data Profiling können Sie den Zustand Ihrer Daten bewerten und Zeilen und Spalten mit fehlenden Werten, beschädigten oder unvollständigen Informationen, ungültigen Feldern und vieles mehr aufdecken.

Datenbereinigung + Standardisierung Verwenden Sie Muster und reguläre Ausdrücke zum Bereinigen, Sortieren und Optimieren der Daten für den Abgleich. Umwandlung halbstrukturierter, unsauberer Daten in saubere, standardisierte Daten.

Der Abgleichprozess – Definitionen erstellen, Regeln zuweisen

Theoretisch klingt der Datenabgleich einfach – man vergleicht zwei Datensätze, findet die gemeinsamen Informationen zwischen beiden und erreicht so das Abgleichsziel.

In der Praxis ist der Datenabgleich ein komplexer Prozess, bei dem man versucht festzustellen, dass
zwei Datensätze tatsächlich auf dieselbe Entität verweisen.

Nehmen Sie zum Beispiel die folgende Tabelle.

Wie würden Sie entscheiden, dass die beiden Datensätze zu ein und derselben Person gehören? Oder dass sie als Duplikate gekennzeichnet werden können?

Vorname Nachname Adresse Telefon
John Doe 1899 PA 0553333
Johnny D 1899 PA 0550123

Eine Möglichkeit, sich diesem Fall zu nähern, besteht darin, zu sagen, dass die Datensätze insofern Ähnlichkeiten aufweisen, als Johnny ein beliebter Spitzname für John ist oder beide Nachnamen mit D beginnen, so dass es sich wahrscheinlich um Duplikate handelt. Aber Intuition oder Vermutungen sind nicht der richtige Weg, um dies zu tun. Daher werden Abgleichlösungen benötigt, die mehrere Abgleichalgorithmen verwenden können, um festzustellen, ob zwei Datensätze ähnlich sind.

Wenn die Tabelle über eindeutige Bezeichner verfügt – in diesem Fall könnte es sich um die Telefonnummer handeln -, ist es einfach, eine Übereinstimmung zu ermitteln. Da es jedoch keine eindeutigen Bezeichner gibt, müssen Sie entweder den deterministischen oder den probabilistischen Abgleich verwenden, um die Ähnlichkeit der Datensätze zu bestimmen.

Sie beginnen den Abgleich, indem Sie die Attribute ermitteln, die sich wahrscheinlich nicht ändern werden – z. B. Nachname, Geburtsdatum, Größe, Farbe usw. Anschließend weisen Sie jedem Attribut eine Übereinstimmungsart (phonetisch, exakt, unscharf) zu. Namen können zum Beispiel phonetisch zugeordnet werden. Zahlen und Daten können anhand ihrer Ähnlichkeit miteinander verglichen werden.

Dies ist direkt in DataMatch Enterprise integriert.

Sie wählen die gewünschte Spalte aus, wählen eine Abgleichsart und beginnen den Abgleich. Sie können den Abgleich auch anhand von drei wichtigen Einstellungen konfigurieren: Alle, Zwischen und Innerhalb.

  1. Alle: Dabei wird nach Übereinstimmungen zwischen allen in das Tool integrierten Datenquellen gesucht. Aber es wird nicht nur zwischen ihnen gesucht, sondern auch nach Duplikaten in *jedem* von ihnen. Früher hätte es Wochen gedauert, nur eine einzige Datei nach Duplikaten zu durchsuchen, aber mit einer automatisierten Lösung können Sie jetzt innerhalb jeder Datei und zwischen mehreren Dateien nach Übereinstimmungen suchen.
  2. Zwischen: Wenn Sie nur nach Übereinstimmungen zwischen Quellen und nicht innerhalb von Quellen suchen, können Sie die Übereinstimmungseinstellung auf „zwischen“ setzen. Geben Sie die Anzahl der Datenquellen an, die Sie abgleichen möchten. Die Lösung führt dann Abgleiche zwischen diesen Quellen durch, ohne nach Duplikaten innerhalb dieser Quellen zu suchen.

  3. Innerhalb:
    Wenn Sie speziell nach Übereinstimmungen oder Duplikaten innerhalb einer Datenquelle suchen möchten, können Sie mit dieser Konfiguration Zeilen und Spalten dieser speziellen Quelle durchsuchen.

Als nächstes können Sie jedem Attribut eine Gewichtung zuweisen, d. h. es wird festgelegt, wie wichtig ein Feldwert für den Gesamttrefferwert ist. Wenn beispielsweise der erste Buchstabe Ihrer Datensätze übereinstimmt, fügt das Tool eine zusätzliche Punktzahl hinzu. Dies ist besonders hilfreich, wenn Sie Dinge wie zweite Vornamen abgleichen wollen (A gegen Andrews) und Spitznamen. Dies sollte jedoch mit Vorsicht verwendet werden, da es die Ergebnisse verfälschen kann.

Für einen zuverlässigen Abgleich benötigen Sie ein zuverlässiges, nicht veränderbares Feld, z. B. eine SSN-Nummer oder eine E-Mail-Adresse. Sobald der Abgleich erfolgt ist, können Sie eine Feinabstimmung vornehmen, um noch genauere Ergebnisse zu erzielen.

Abstimmen der Datenabgleichsergebnisse

Um das Beste aus dem Spiel herauszuholen, können Sie eigene Spielregeln erstellen. DME verwendet ein einzigartiges
Musterersteller
Werkzeug, um benutzerdefinierte Übereinstimmungsregeln zu erstellen.

Nehmen Sie das folgende Szenario:

Ein Unternehmen verfügt über zwei Spalten mit Kontaktnummern – ein Mobiltelefon und ein Festnetzanschluss für jeden seiner Ansprechpartner. Ein Jahr lang waren diese Daten doppelt vorhanden, und in mehreren hundert Zeilen fehlte entweder eine Mobil- oder eine Festnetznummer. Das Unternehmen entscheidet sich für einen unscharfen Abgleich innerhalb der Datenquelle, um doppelte Kontakte auszusortieren. Nach der Aufbereitung, Bereinigung und Umwandlung ihrer Daten erhalten sie eine übersichtliche konsolidierte Liste eindeutiger Nachnamen mit eindeutigen Mobil- und Festnetznummern. Die meisten Unternehmen würden hier aufhören.

Aber jetzt wird es interessant.

Es gibt eine konsolidierte, eindeutige Liste, aber wie kann das Unternehmen sicher sein, dass jeder Kontakt die richtige Mobil- und Festnetznummer hat?

Es stellte sich heraus, dass sie nicht sicher waren.

Die Nummern in der Spalte „Mobiltelefon“ hatten keine Ländervorwahl.

Nummern in mehreren hundert Festnetzanschlüsse Spalte waren Mobilfunknummern.

Hier sollten Sie beginnen, die Ergebnisse des Datenabgleichs zu optimieren.

Mit der Gewissheit, dass die Nachnamensdaten eindeutig sind, können sie als eindeutiger Bezeichner verwendet werden, um nur die Handy- und Festnetzspalte abzugleichen. In diesem Fall waren das Land und die Ortsvorwahl das Unterscheidungsmerkmal zwischen Mobilfunk und Festnetz. Wie kann man dieses Spiel feinabstimmen?

DME verwendet einen
Musterersteller
um maßgeschneiderte Abgleichskonfigurationen für komplexe Abgleichsprozesse wie in diesem Fall zu erstellen. Mit Hilfe des Pattern Builders kann der Benutzer einen Ausdruck erstellen, der allen Mobilfunknummern eine Vorwahl (Land + Ortsvorwahl) zuweist. Die Mobilfunkspalte wird mit dieser Vorwahl abgeglichen und alle Nummern ohne Vorwahl werden mit der Vorwahl versehen. Anschließend werden das Mobiltelefon und der Festnetzanschluss abgeglichen, um festzustellen, ob es Duplikate gibt. Wenn es keine Duplikate gibt, wird eine letzte Spalte mit dem aktualisierten Mobiltelefon erstellt. Im Rahmen dieses Pattern Builders kann der Benutzer den Zahlenbereich definieren – zum Beispiel ist jede Zahl, die weniger als 6 Stellen hat, eine unvollständige oder ungenaue Zahl.

Machen Sie abschließend eine Kopie des Endergebnisses und vergleichen Sie Ihre Trefferlisten. Exportieren Sie die Ergebnisse in eine Kalkulationstabelle und verfolgen Sie die Änderungen, die Sie vornehmen. DME macht dies einfacher, da das Tool Kopien aller Ihrer Abgleichsergebnisse speichert und so sicherstellt, dass Sie keine früheren Datensätze verlieren, die Sie erneut auswerten möchten.

Mithilfe der Abgleichsabstimmung können Sie falsch-positive und -negative Ergebnisse reduzieren. Unternehmen sind nicht in der Lage, ein Übermaß an Fehlalarmen zu bewältigen. Daher ist es notwendig, eine Definition für Übereinstimmungen zu finden, die nicht zu breit oder zu allgemein ist. Die Verwendung von Vor- und Nachnamen (was oft am einfachsten ist) für einen Abgleich führt zu einer hohen Anzahl von Fehlalarmen, da zwei verschiedene Personen denselben Vor- und Nachnamen haben können. Daher ist eine engere Definition wie eine Telefonnummer oder eine E-Mail-Adresse besser, da zwei Nutzer nicht dieselbe Nummer haben. In diesem Fall muss die Telefonnummer zu 100 % korrekt sein, um als Übereinstimmungsdefinition verwendet werden zu können.

Einige wesentliche Funktionen zur Abstimmung von Daten in DTA

DataMatch Enterprise ist ein automatisiertes, leistungsstarkes Selbstbedienungs-Tool für den Datenabgleich, mit dem Benutzer benutzerdefinierte Abgleicheinstellungen auf der Grundlage einer Reihe von Einstellungen erstellen können, einschließlich der Verwendung von alphanumerischen Zeichen, Zeichenketten, Ziffern, Leerzeichen, Begrenzungszeichen und vielem mehr.

Hier sind einige Schlüsselfunktionen, die das Tool verwendet, um hochpräzise Treffer zu liefern.


Art des Abgleichs:
Das Tool ermöglicht fünf Arten des Datenabgleichs:

  • Genau:
    Stimmt nur überein, wenn die Felder identisch sind
  • Phonetisch:
    Feld stimmt überein, wenn sie gleich klingen (Bear und Bare)
  • Numerisch:
    Vergleicht numerische Werte
  • Unscharf:
    Damit werden Felder auf der Grundlage der Übereinstimmung von Zeichen (john und jhon) abgeglichen und ein Ergebnis auf der Grundlage dieser Übereinstimmung und der Reihenfolge der Zeichen zurückgegeben.
  • Ebene: Damit wird der Schwellenwert für die Trefferquote festgelegt. (Zum Beispiel, if Sie definieren Nachnamen als 70%, dann müssen alle Datensätze dieser Gruppe zu 70% oder mehr übereinstimmen).

Gruppen-IDs: Dies ermöglicht es den Benutzern, Felder für die spaltenübergreifende Suche zwischen zwei oder mehr Spalten zu erstellen. Sie möchten zum Beispiel die Vornamensspalte von Datensatz A mit der Nachnamensspalte von Datensatz B oder mit Datensatz A selbst abgleichen.


Gruppenebene:
Für eine Gruppen-ID berechnete Übereinstimmungsbewertung auf der Grundlage von Feldebene und Gewicht.


Filter-Editor:
Spalten filtern mit
UND/ODER
Optionen und legen Sie die Werte fest, die Sie in einer Spalte behalten wollen. Im obigen Szenario könnten Sie zum Beispiel Nummern behalten wollen, die nur mit der Vorwahl eines Landes beginnen.

Übereinstimmungen zusammenführen: Was ist, wenn Sie zwei Zahlen für eine Spalte haben? Würden Sie das eine behalten und das andere entfernen? Wenn Sie nicht genau wissen, welche der beiden Versionen die richtige ist, können Sie sie, getrennt durch ein Trennzeichen, zusammenführen. Auf diese Weise behalten Sie beide Ergebnisse, die Sie später in Augenschein nehmen können.

Schließlich können Sie mit DME Datensätze in über ein Dutzend Formate exportieren. Sie können nach dem Abgleich auch einen Golden Record erstellen, der die genaueste, konsolidierte Version Ihrer Daten enthält.

Schlussfolgerung

Traditionell verfolgt eine Datenabgleichsaktivität drei Ziele.

  1. Datenspalten abrufen, die übereinstimmen
  2. Spalten entdecken, die nicht übereinstimmen
  3. Erhalten Sie eine Ausgabe mit wahrheitsgemäßen, genauen Informationen

Heute werden diese Ziele durch Zeit- und Trefferquoten erweitert. Die Unternehmen wollen eine 100%ige Trefferquote in kürzester Zeit und mit minimalem Ressourceneinsatz. Im Wesentlichen ist dies eine Forderung nach Automatisierung. Lösungen der nächsten Generation erfüllen diese Anforderung, indem sie es den Nutzern ermöglichen, ihre Daten durch Bereinigung, Abgleich und Optimierung des Abgleichs für gezieltere und genauere Ergebnisse zu verfeinern und zu optimieren.

DME hilft Ihnen, all diese Ziele zu erreichen.

  1. Wir haben die höchste Trefferquote und schlagen SAS und IBM.
  2. Der Abgleich von Millionen von Datenzeilen dauert nur 45 Minuten
  3. Unser Tool wurde für Geschäftsanwender zum Bereinigen, Abgleichen und Umwandeln von Daten entwickelt.
  4. Der Benutzer kann Regeln definieren, Ausnahmen erstellen und Konfigurationen entsprechend seinen Datenanforderungen optimieren.
  5. Es erfordert keine Programmiersprachenkenntnisse und ist ein Selbstbedienungstool für alle, die sich mit Datenqualität und Datenabgleich befassen möchten.

Möchten Sie wissen, wie wir Ihnen bei der Durchführung eines individuellen Datenabgleichs helfen können? Laden Sie die kostenlose Testversion herunter und erleben Sie Datenabgleich auf moderne, bessere und leistungsfähigere Weise.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.