Blog

Software zum Namensabgleich und Algorithmen: Was ist das Beste für Ihr Unternehmen?

Catherine, die als Cathy, Kath oder Katharine geschrieben wird; John, der in Ihrem System als Jon, Jonathan oder Jonny eingegeben wird; oder eine Margaret, die sich beim Online-Einkauf als Peggy ausgibt – Namensvariationen verursachen erhebliche Probleme bei der Pflege eines genauen Kunden- oder Lieferantenprofils für Unternehmen. In diesem Artikel werden wir einen Blick darauf werfen, wie Software und Techniken zum Namensabgleich Unternehmen helfen.

Obwohl es sich scheinbar um ein kleines Problem handelt, führen Namensvariationen zu doppelte Datensätze, die in unterschiedlichen Datenquellen erstellt werden. Ihre Vertreter verbringen viel zu viel Zeit damit, zu versuchen Wenn Sie Kundeninformationen nicht konsolidieren und nicht überprüfen können, ob es sich bei zwei Kunden tatsächlich um dieselbe Person handelt, können Ihre Analysen ein falsches Bild Ihrer Kunden zeigen, was sich auf Geschäftsentscheidungen auswirkt.

Hier ein kleines Beispiel dafür, was bei einer Namensinkongruenz schief gehen kann.

Angenommen, Sie möchten eine Werbe-E-Mail an Ihre Kunden senden. Sie verbinden Ihre Datenbank mit Ihrer automatisierten E-Mail-Plattform und versenden eine E-Mail. William Rogers ist einer Ihrer Kunden, aber wenn William die E-Mail erhält, wird er als „Willy Rog“ angesprochen. Sie haben soeben das Vertrauen eines Kunden verloren , und damit auch das laufende Geschäft.

Wie kann man einen solchen Unfall verhindern? Welche praktischen Schritte können Sie unternehmen, um sicherzustellen, dass Ihre Datenbank die richtigen Informationen enthält?

Wir werden alle diese Fragen beantworten, indem wir sie behandeln:

  • Was ist Name Matching?
  • Warum treten Probleme bei der Namensübereinstimmung auf?
  • 4 Allgemeine Ansätze zur Lösung von Namensübereinstimmungsproblemen
  • Herausforderungen bei bestehenden Ansätzen
  • Wie Namensabgleichs-Software helfen kann
  • Fallstudie der Zurich Versicherung

Schauen wir genauer hin.

Was ist Name Matching?

Für den Laien bedeutet Namensabgleich einfach, dass mehrere Varianten eines Namens sinnvoll mit einem Hauptnamen verknüpft werden. Nehmen wir also das obige Beispiel: William kann als Will, Willy, Wils und so weiter geschrieben werden. Das Ziel des Namensabgleichs ist es, diese Variationen zu identifizieren und sie mit dem richtigen Namen, also William, zu verbinden.

Klingt einfach, oder?

Nicht ganz so.

In Datenbanken dienen Namen auch als eindeutige Bezeichner – das heißt, Ihre Datenbank kann sich auf einen Namen stützen, um einen Datensatz zu finden. Noch wichtiger ist, dass Sie sich bei der Verwendung von Marketing-Automatisierungstools auf das [name] -Token verlassen, um die E-Mail zu personalisieren, sodass kein Raum für Fehler bleibt. Die negativen Folgen falscher Schreibweisen können Unternehmen Hunderttausende von Dollar kosten.

Was können Sie also tun? Datenexperten setzen Algorithmen oder Methoden ein, um Duplikate oder ungenaue Namen zu entfernen, so dass nur eine wahre Quelle übrig bleibt. Im Fall von William werden also alle anderen Varianten entfernt, so dass Sie einen einzigen korrekten Namen erhalten, während die anderen Varianten in einem separaten Feld gespeichert werden, um bei Bedarf darauf verweisen zu können.

Warum treten Probleme bei der Namensübereinstimmung auf?

Für Namensänderungen gibt es eine Reihe von Gründen – der erste und wichtigste ist das Verhalten oder die Absicht des Nutzers. Einige Personen können sich dafür entscheiden, ihren Spitznamen anzugeben (ein häufiges Problem bei Online-Geschäften, bei denen die Benutzer Formulare ausfüllen müssen). Manche entscheiden sich dafür, nur ihre Initialen anzugeben, andere geben einfach einen beliebigen Namen ein.

Unabhängig von Größe, Art oder Branche Ihres Unternehmens sind die Kosten für falsche oder ungenaue Daten immer hoch. Wenn Ihr Unternehmen jedoch in den Bereichen Strafverfolgung, innere Sicherheit, Einhaltung von Finanzvorschriften oder ähnlichen datenschutzrelevanten Branchen tätig ist, können Sie das Problem der Namensvariation nicht riskieren. Für Unternehmen in diesen Branchen steht bei der Namensfindung viel auf dem Spiel.

TransUnion, eine bekannte Kreditauskunftei, hat eine umfangreiche Sammelklage verloren, weil sie Kunden fälschlicherweise als Kriminelle eingestuft hat. Ähnlich verhält es sich mit PayPal, einem beliebten Unternehmen für Online-Finanztransaktionen
wurde mit einer Geldstrafe belegt, weil sie Transaktionen
in den Iran, nach Kuba und in den Sudan nicht verhindert hatte, weil ihr Filter nicht richtig funktionierte.

Die zunehmende Variabilität und Komplexität der Datentypen, Datenformate und Datenquellen (Mobilgeräte, soziale Netzwerke, Geräteprotokolle usw.) hat die Herausforderungen beim Namensabgleich weiter erschwert.

Einige der häufigsten Probleme beim Namensabgleich sind:

Typografische Fehler: Fehlt das ‚a‘ in Angela, könnte der Name in Angel geändert werden. Das Problem mit den Tippfehlern? Manchmal sind wir uns nicht einmal bewusst, dass wir einen Tippfehler gemacht haben.

Phonetik: Heißt es Carl oder Karl? Grau oder Gray? Diese Namen klingen ähnlich, werden aber unterschiedlich geschrieben. Wenn jemand den Namen über einen Anruf eingibt (z. B. ein Kundendienstmitarbeiter), führt das Versäumnis, die Schreibweise zu bestätigen, zu einem Fehler, der unbemerkt bleibt.

Spitznamen: Dies ist ein häufiges Problem. Manchmal ersetzen die Spitznamen den ursprünglichen Namen vollständig. So kann es sich jemand zur Gewohnheit machen, Mike statt Michael oder Liz statt Elizabeth zu tippen.

Initialen: Bei sehr langen Namen neigen die Leute manchmal dazu, nur die Initialen zu notieren. Mary Jane Thomas könnte als M.J Thomas geschrieben werden. In diesem Fall besteht auch die Möglichkeit, dass M.J. Thomas fälschlicherweise für einen Mann gehalten wird!

Ausländische Namen: Das ist super knifflig! Bei ausländischen Namen ist die Wahrscheinlichkeit von Rechtschreibfehlern hoch. Asiatische Namen, insbesondere vietnamesische, koreanische und chinesische, sind schwierig zu handhaben. Zum Beispiel ist „Nguyen thi…“ ein gängiger vietnamesischer Vorname für Frauen. Manche schreiben es als Nugyen, manche als Nguyen – wobei die erste Schreibweise falsch ist. Das Gleiche gilt für asiatische Namen, die amerikanisiert wurden, z. B. wird Farah als Farrah geschrieben und ausgesprochen.

Da an der Erfassung von Namen so viele Quellen, Prozesse und Personen beteiligt sind, ist es schwierig, eine 100%ige Genauigkeit zu gewährleisten. Dank moderner Technologie ist es jedoch möglich, ungenaue Daten erheblich zu reduzieren, wenn nicht sogar vollständig zu entfernen.

Der Haken?

Sie müssen verschiedene Methoden der Namensfindung anwenden, um verschiedene Aufgaben zu lösen. In jedem Fall muss jedoch festgestellt werden, dass es keine Einheitslösung für die Lösung dieser Herausforderungen gibt. Es gibt verschiedene Ansätze zur Bewältigung unterschiedlicher Herausforderungen, aber es gibt keine Einheitslösung für alle.

Die meisten der beschriebenen Frameworks sind für spezielle Herausforderungen konzipiert und erfordern erhebliche Anpassungen, bevor Sie sie in einer Unternehmensumgebung entwickeln und einsetzen können.

4 Allgemeine Methoden zur Lösung von Namensübereinstimmungsproblemen

Das Problem des Abgleichs von Zeichenketten beschäftigt Unternehmen und Organisationen schon seit Jahrzehnten. Unternehmen wie Google und Amazon nutzen verschiedene Methoden, um diese Herausforderung zu meistern, während weniger kapitalkräftige Unternehmen immer noch mit den Kosten für die Pflege einer großen Datenbank zu kämpfen haben.

Im Folgenden werden einige der in der Branche gebräuchlichsten Verfahren zum Namensabgleich vorgestellt.

Die Common Key Methode

Die Phonetik ist ein häufiges Problem bei der Namensgebung, das mit der Common Key Methode gelöst werden kann. Bei dieser Methode werden die Namen durch einen Schlüssel oder einen Code auf der Grundlage ihrer englischen Aussprache dargestellt.

Ein phonetischer Algorithmus, Soundex, wird verwendet, um Namen nach Lauten zu indizieren. So haben zum Beispiel SMITH und SCHMIDT S530 als Schlüssel. Dies mag wie eine supereinfache Methode zur Lösung von Namensproblemen erscheinen, aber sie ist sehr begrenzt.

Es funktioniert nur bei Lateinisch basierte Sprachen. Das bedeutet, dass es fremdsprachige Namen nach der englischen Phonetik entschlüsselt . Double Metaphone, ein weiterer phonetischer Algorithmus, verwendet einen primären und einen zweiten Code für jeden Namen, wodurch andere Sprachen wie Slawisch, Germanisch, Spanisch, Französisch, Griechisch, Italienisch und sogar Chinesisch berücksichtigt werden können!

Double Metaphone verschlüsselt daher Smith mit einem Primärcode von SM0 und einem Sekundärcode von XMT. Wenn er Schmidt liest, verwendet er den Sekundärcode von Smith, also XMT als Primärcode und einen Sekundärcode von SMT. Haben Sie die gemeinsame Nutzung von XMT bemerkt? Dies deutet auf eine Ähnlichkeit zwischen ähnlich klingenden Namen hin.

Obwohl es sich um eine beliebte Methode handelt, ist die größte Herausforderung bei Common Key-Algorithmen die Präzision. Es handelt sich meist um Ratespiele (wie im Fall von Smith vs. Schmidt), und obwohl immer bessere und fortschrittlichere Algorithmen zur Behandlung phonetischer Unterschiede entwickelt werden, wird es bei nicht-englischen Namen immer Probleme geben. Bei koreanischen Namen zum Beispiel konvertieren sowohl Soundex als auch Metaphone die Namen in lateinische Schriftzeichen und erstellen dann Schlüssel dafür. Dieses Verfahren erhöht die Komplexität der Aufgabe und erhöht die Fehlerwahrscheinlichkeit, anstatt sie zu verringern.

Vorteile: Einfach, schnell & hoher Wiedererkennungswert
Nachteile: Funktioniert nicht so reibungslos mit nicht-lateinischen Namen. Kann zu Lasten der Präzision gehen.

Liste oder Wörterbuch Nachschlagemethode

Die Methode ist einfach: Man listet alle möglichen Varianten eines Namens auf und gleicht sie mit der Hauptquelle ab.

Diese Methode eignet sich am besten für multikulturelle Daten, da es verschiedene Ableitungen eines Namens gibt – die Ursache dafür können kulturelle Präferenzen, Individualität oder einfach ein menschlicher Fehler sein, der nicht korrigiert wurde.

Nehmen Sie zum Beispiel den Namen Aiden. Er wird auch geschrieben als Aydin. Ein anderes häufiges Beispiel ist Ayesha auch geschrieben als Aisha oder Aiesha.

Obwohl die Listenmethode einfach und leicht zu pflegen ist, ist sie ressourcenintensiv und stößt bei anderen Varianten wie Initialen, Spitznamen, Nachnamen usw. an ihre Grenzen. Ein weiterer Nachteil ist, dass eine Namensvariante, die nicht in der Liste enthalten ist, nicht als Übereinstimmung gefunden wird, was die Listenmethode für den Einsatz in Bereichen wie innere Sicherheit, Geldwäschebekämpfung usw. ineffizient macht.

Vorteile: Einfach zu bedienen
Nachteile: Ressourcenintensiv; hat Rückrufprobleme, da neue Varianten möglicherweise nicht erfasst werden; ist langsam, da es eine große Datenbank durchsucht, um eine Übereinstimmung zu finden.

Abstand bearbeiten Methode

Bei der Editierdistanz-Methode werden Schreibweisen in Zeichen zerlegt und gewichtet. „Carl“ und „Karl“ haben eine Editierdistanz von 1, da sich das C in ein K verwandelt. In diesem Fall wird das C für das K „transponiert“. Der Begriff „Editieren“ bezieht sich in dieser Methode auf die Aktionen Einfügen, Löschen und Transponieren, die erforderlich sind, um die Zeichenketten abzugleichen.

Sie beruht auf zwei Schlüsselfaktoren:

1). Die Anzahl der ähnlichen Schreibweisen in der Zeichenfolge

2). Die Anzahl der Bearbeitungsvorgänge, die erforderlich sind, um eine Variante in eine andere zu verwandeln.

Der Nachteil dieser Methode ist der gleiche wie bei den anderen Methoden – die Genauigkeit ist nur bei englischen Namen begrenzt. Für nicht-englische Namen findet ein Übersetzungsprozess statt, nach dem die Änderungen vorgenommen werden. Der vietnamesische Name „Hang“ kann als „Heng“ übersetzt werden, was ein chinesischer Nachname ist.. Beide haben bis auf die Vokale die gleiche Schreibweise und klingen sogar gleich, da sie aus der gleichen orientalischen Kultur stammen.

Es ist daher offensichtlich, dass die Editierdistanzmethode nicht nur nicht nur Sprachnuancen vernachlässigtsondern auch bei der Übersetzung von nicht-lateinischen Sprachen ins Englische zu erheblichen Fehlern führen kann.

Vorteile: Einfach auszuführen
Nachteile: Funktioniert nicht effizient für nicht-lateinische Sprachen.

Regelbasierte Methode

Dies ist eine interessante Methode, die sich auf menschliches Wissen stützt. Diese Methode ist zwar arbeitsintensiv, aber sie berücksichtigt das reale Wissen über Namen aus verschiedenen Kulturen und Ethnien. Der Vorteil dieser Methode besteht darin, dass keine Übersetzung von einer Fremdsprache in die englische Sprache erfolgt und die kulturellen Nuancen einer Sprache erhalten bleiben.

Welche drei Nachteile hat diese Methode?

  1. Sie stützt sich auf den Umfang des menschlichen Wissens.
  2. Es ist ein großer Aufwand, mehrere Namensvarianten allein auf der Grundlage menschlichen Wissens zu erfassen.
  3. Es ist langsam, da es Millionen von Namen durchforsten muss, um eine gute Übereinstimmung zu finden.

Vorteile: Berücksichtigt fremdsprachige Namen
Nachteile: Verlässt sich auf menschliches Wissen

Nutzung des Hybridmodells

Hybride Modelle machen Gebrauch von zwei oder mehr Methoden, um die höchste Trefferquote und Präzision zu erreichen. Um diese Ziele zu erreichen, kann die hohe Wiederauffindbarkeit der Common Key Methode mit dem menschlichen Wissen über Namen der regelbasierten Methode kombiniert werden.

Bei einem hybriden Modell werden die Regeln aus realen Daten generiert, was bedeutet, dass es sich weder vollständig auf menschliches Wissen noch auf eine Übersetzung stützen muss. Darüber hinaus eignet sich diese Methode hervorragend für den sprachübergreifenden Namensabgleich, bei dem die Benutzer einen Namen einfach auf Englisch eingeben können und trotzdem genaue Ergebnisse erhalten.

Das Ergebnis ist ein hybrides Modell, das schnell ausgeführt werden kann, eine genaue Wiedererkennung bietet und auch das Problem der Umwandlung von Nicht-Lateinisch in Lateinisch löst.

Es ist jedoch wichtig zu erwähnen, dass es keine leichte Aufgabe ist, ein hybrides Modell zu entwickeln, das Ihren Datenanforderungen entspricht. Sie müssen zunächst das Problem identifizieren, das Sie haben, die Art des Ansatzes, der mit Ihren spezifischen Daten funktioniert, und das hohe Maß an Anpassung, das Sie vornehmen müssen, damit das Modell mit Ihren Daten funktioniert. Außerdem werden Sie Monate damit verbringen müssen, die Wirksamkeit der verschiedenen Methoden zu testen, zu erfassen, zu aktualisieren und zu überprüfen. Dies ist ein teures Unterfangen, das Ihnen nicht helfen wird, Ihre aktuellen Datenprobleme zu bewältigen.

Herausforderungen bei bestehenden Ansätzen

Wenn Ihr Unternehmen nur mit ein paar hundert Namen in einer Excel-Tabelle zu tun hat, können Sie die Namensprobleme manuell beheben oder einen der oben beschriebenen Algorithmen verwenden. Es ist natürlich klar, dass die Umsetzung eines dieser Ansätze Hunderttausende von Dollar, Monate, wenn nicht Jahre der Prüfung und Umsetzung und die Einstellung eines Entwicklungsteams kosten wird , was nicht ohne Vorbehalte geschieht.

Darüber hinaus gibt es weitere Herausforderungen, die mit den bestehenden Ansätzen nur schwer zu bewältigen sind:

1. Das Problem des Umgangs mit einer Vielzahl von Schriftarten: Die meisten Ansätze befassen sich in erster Linie mit lateinisch basierten Sprachen. Bei multikulturellen oder mehrsprachigen Skripten schneiden diese Ansätze sehr schlecht ab. Sie können jeweils nur ein Skript bearbeiten, so dass Sie nicht wirklich mehrere Skripte gleichzeitig durchsuchen können.

2. Probleme mit der Genauigkeit und dem Rückruf: Die Common-Key-Methode kann einen hohen Recall, aber eine geringe Präzision aufweisen. Da es nur Zeichenketten auf der Grundlage von Klängen oder Tasten abgleicht, ist es bei Daten mit hoher Varianz nicht sehr erfolgreich. Die regelbasierte Methode bietet zwar Präzision, aber da sie die Daten manuell durchsuchen muss, ist der Abrufprozess sehr langsam.

3. Hohe Rechenleistung: Das Sortieren einer großen Unternehmensdatenbank erfordert hohe Rechenressourcen, die eine ebenso hohe Laufzeit ermöglichen. Sie sollten in der Lage sein, einen Namen oder eine Übereinstimmung innerhalb von Sekunden nach einer Suche abzurufen. Diese Notwendigkeit des sofortigen Ladens von Informationen erfordert Systeme und Ressourcen, die kostspielig sind – ganz zu schweigen davon, dass sie auch jährlich gewartet und aktualisiert werden müssen.

4. Fehlen von automatischen Verbesserungen: Im Laufe der Zeit müssen alle diese Ansätze manuell aktualisiert werden, um Verbesserungen zu erzielen. Dies ist nicht nur zeitaufwändig und komplex, sondern stellt auch eine größere Herausforderung an die Präzision und Genauigkeit dar.

5. Die Einstellung der richtigen Talente: Jeder kann eine Sprache lernen und ein Programm für Sie einrichten. Aber Sie brauchen mehr als nur einen Python-Entwickler, um diese Aufgabe zu bewältigen. Sie brauchen ein Team, das weiß, wie man ein bestimmtes Modell zur Lösung eines spezifischen Problems einsetzt – und dieses Team ist nicht billig.

Software zum Namensabgleich: Der Code-freie Ansatz

Auch wenn diese Algorithmen „einfach“ klingen mögen, ist ihre Ausführung kaum einfach.

Die Zwänge, der Bedarf an einem Team und an Rechenressourcen und vor allem die Herausforderung bei der Umsetzung eines funktionierenden Ansatzes sind schwer, wenn nicht gar unmöglich zu überwinden. Sie kostet Hunderttausende von Dollar, belastet die Geschäftsprozesse erheblich und schafft es immer noch nicht, die exponentielle Zunahme unterschiedlicher Datenquellen, -typen und -formate zu erfassen.

In diesem Fall benötigen Sie eine Software für den Namensabgleich – eine Lösung, die ohne Code auskommt, mühelos funktioniert und sich hervorragend für den steigenden Datenbedarf eignet.

Moderne Softwarelösungen für den Namensabgleich können mehr als nur Namen abgleichen. Sie bereinigen Daten, beseitigen Duplikationsprobleme, beseitigen Redundanzen durch Standardisierung und helfen Ihrem Unternehmen, sich auf zuverlässige und genaue Daten zu verlassen.

DataMatch Enterprise ist eine solche Lösung aus einer Hand, die über den Namensabgleich hinausgeht. Es wird von mehr als 4.000+ Unternehmen in 40 Ländern verwendet und ist als die Nummer 1 für Datenabgleich und Datenbereinigung anerkannt; es ist eine Lösung, die moderne Datenprobleme behebt. Das System implementiert ein hybrides Modell zur Identifizierung und Auflösung von Abweichungen in mehreren Datenpunkten.

Darüber hinaus bietet es eine API-Lösung, die jede Ihrer Datenquellen in die DataMatch Enterprise-Plattform integriert, wo Sie problemlos Profile erstellen, bereinigen, abgleichen und deduplizieren können.

Zurich Insurance – Fallstudie

Die Zürich Versicherung, eine der größten Schweizer Versicherungsgesellschaften, konnte DataMatch Enterprise einsetzen, um Informationen zu prüfen und sicherzustellen, dass Zahlungen korrekt und ohne menschliche Fehler verarbeitet wurden.

Das derzeitige System verfügt nicht über eine feste Bearbeitungsfunktion, mit der Namen von Zahlungsempfängern vorausgefüllt werden können, so dass diejenigen, die Informationen in der Datenbank verwalten und eingeben, einfach jede Art von Information eingeben können. Wenn eine Abfrage gegen das Haupt-Data-Warehouse durchgeführt wurde, erschien eine lange Liste mit doppelten Informationen.

Das Ergebnis? Die Namen der Lieferanten wurden nicht ordnungsgemäß zusammengefasst, was zu massiven Problemen und betrieblicher Ineffizienz führte.

Mit DataMatch Enterprise war das Unternehmen in der Lage,:

  1. Erstellung genauer und vertraulicher Berichte für die Branche
  2. Erfüllung der Anforderungen an Datenbereinigung und Fuzzy Matching
  3. Verarbeitung von Zahlungen ohne menschliche Fehler

Fazit – Ihr Unternehmen braucht Daten, denen Sie vertrauen können

Rohdaten sind immer fehleranfällig. Unabhängig davon, welche Front-End-Systeme Sie einsetzen, wenn es sich um einen Menschen handelt, der Informationen ausfüllt oder weitergibt, wird es immer Probleme mit Abweichungen geben. Wenn diese Fragen nicht geklärt werden, kann dies zu einem kostspieligen Fehler werden.

Unternehmen könnten im Rahmen von Sammelklagen verklagt werden, Kunden verlieren, schlechte Online-Bewertungen erhalten oder sogar den Anschluss an die Konkurrenz verlieren, wenn sie schlechte Daten haben.

Eine Investition in Software zum Namensabgleich und in Datenbereinigungslösungen ist daher eine Notwendigkeit und kein Luxus.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.