Blog

Ihr kompletter Leitfaden für Software und Verfahren zum Listenabgleich

Die meisten Unternehmen sind sich heute darüber im Klaren, dass neue Technologien und Anwendungen eingeführt werden müssen, um den Geschäftsbetrieb zu optimieren. Die Implementierung einer Datenmigration von einem Altsystem in ein neues System stellt jedoch eine große Herausforderung für die Datenqualität dar. Wenn das Unternehmen nicht aktiv Lösungen wie eine Software für den Listenabgleich oder eine Datenbereinigungslösung einsetzt, ist die Wahrscheinlichkeit groß, dass die Daten fehlerhaft, korrupt und fehlerhaft sind.

Daher ist es für ein Unternehmen unerlässlich, vor der Umsetzung von Migrationsplänen in Lösungen zur Datenbereinigung zu investieren. Das grundlegende Ziel besteht darin, aus jahrelang veralteten Daten verwertbare Daten zu gewinnen. Um dies zu ermöglichen, haben Sie zwei wesentliche Möglichkeiten: Sie können in Datenspezialisten oder Datenqualitätslösungen investieren.

Die Frage ist, ob Sie ein Team einstellen oder eine Softwarelösung verwenden sollten.

In diesem Leitfaden werden wir Ihnen helfen, beide Seiten der Medaille zu betrachten, damit Sie eine bessere Entscheidung treffen können. Wir werden wichtige Themen behandeln wie:

  • Die Kosten einer schlechten Datenqualität
  • Häufige Probleme mit der Daten- und Listenqualität
  • Ansätze zur Lösung von Datenqualitätsproblemen
  • Hauptmerkmale einer Software für den Listenabgleich
  • Amec Foster Wheeler Fallstudie

Fangen wir an.

Die Kosten einer schlechten Datenqualität

Schlechte Datenqualität bezieht sich auf Daten mit Duplikaten, nicht übereinstimmenden Namen, Abkürzungen, nicht standardisierten Daten (NY vs. NYC vs. New York vs. New York City), unvollständigen Postleitzahlen, E-Mail-Adressen usw.

Die Kosten, die durch schlechte Datenqualität entstehen, sind schwindelerregend.
3,1 Billionen Dollar ist der geschätzte
jährlicher Verlust allein in den USA, der durch schlechte Daten verursacht wird.

Nehmen wir das Beispiel von Unternehmen A, einem großen Baumaschinenhersteller mit mehreren Datensilos. Ihr Ziel für 2020 ist es, ihr Altsystem in ein neues Cloud-System zu überführen und die Geschäftsprozesse zu optimieren.

Sie waren sich der Herausforderungen ihrer Datenqualität bewusst – im Laufe der Jahre wurden die Daten von verschiedenen Abteilungen mit verschiedenen Instrumenten erfasst. Da keine Standardisierung oder ein zentrales Datenverwaltungssystem vorhanden war, stand das Unternehmen vor einer großen Herausforderung bei der Datenbereinigung.

Der erste Schritt eines jeden Datenbereinigungsprozesses besteht darin, eine Analyse der Datenlisten durchzuführen und die wichtigsten Probleme zu ermitteln. Der Schwerpunkt liegt auf Listen, da Datenabgleichslösungen durch den Abgleich von Listen von Datensätzen miteinander funktionieren. Das Hauptziel besteht darin, Duplikate, ungültige, nichtige oder unvollständige Daten zu entfernen, um sicherzustellen, dass das Unternehmen bei der Umstellung auf das neue System über genaue Daten verfügt.

Häufige Probleme mit der Qualität von Datenlisten

Datenbanktabellen zeigen Datensätze in Form von Listen an. Um beim Beispiel von Unternehmen A zu bleiben: Wahrscheinlich gibt es wiederholte oder doppelte Listen oder Listen mit ungenauen, inkonsistenten Informationen.

Es liegt auf der Hand, dass die Vertriebsmitarbeiter ohne feste Standards oder ein System ihre Listen aktualisieren, ohne auf die Qualität der Informationen zu achten. Namen können abgekürzt sein, Rechnungsinformationen können andere Standards haben, Adressen können nicht aktualisiert worden sein – das sind einige der häufigsten Probleme mit Datenlisten.

Schauen wir uns jeden dieser Punkte im Detail an.

Listenverdopplung: Dies geschieht häufig, wenn die Daten eines Kunden zweimal unter einer anderen E-Mail-Adresse oder einer Namensvariante erfasst werden. Es kann auch vorkommen, dass ein und derselbe Kunde unter zwei verschiedenen Namen auftritt (in der Regel bei einer Namensänderung nach einer Heirat) und widersprüchliche Angaben in ein Formular oder in eine Rechnungsinformation einträgt. Wenn der [name] Token als eindeutiger Bezeichner in einer Datenbank verwendet wird, werden die Informationen doppelt gespeichert.

Dateninkonsistenz: Dieses Problem tritt bei den meisten Datenbanken immer wieder auf und ist äußerst schwer zu beheben. Zwar ist menschliches Versagen die Ursache für die meisten Dateninkonsistenzen, doch in den meisten Fällen ist es der Mangel an Datenstandardisierung, der zu Inkonsistenzen führt. Probleme mit Namensvariationen wie Cath vs. Catherine oder Carl vs. Karl, Probleme mit Variationen von Städtenamen wie NYC vs. NY sind keine menschlichen Fehler, sondern Variationen, mit denen moderne Datenbanken durch Standardisierung umgehen müssen.

Ungleiche Daten: In Datenbanken beziehen sich disparate Daten auf unstrukturierte Daten oder Daten, die sich in Art, Qualität und Charakter deutlich unterscheiden. Ein gutes Beispiel hierfür sind die Daten von Fluggesellschaften, bei denen ein Kunde durch mehrere Datenpunkte wie Passnummer, Buchungs-ID, Kunden-ID und Kundenname repräsentiert wird, die alle in mehreren Datenbanken gespeichert sind. Die Buchungsdatenbank kann verschiedene Daten enthalten. Das Ticketingsystem des Kundendienstes kann verschiedene Daten enthalten. Das Kundenbetreuungssystem kann unterschiedliche Daten enthalten. Wenn diese Datenbanken nicht gemeinsam Informationen austauschen, gibt es ein erhebliches Problem mit der Datenqualität. All diese unterschiedlichen Daten machen es schwierig, eine einzige konsolidierte Liste zu erstellen, die für die Untersuchung des Kundenverhaltens einer Fluggesellschaft von Nutzen sein könnte.

Je größer und komplexer Ihre Datenbank ist, desto höher ist die Wahrscheinlichkeit, dass sie beschädigt oder fehlerhaft ist.

Ansätze zur Lösung von Datenqualitätsproblemen

Es gibt zwei Ansätze zur Lösung von Datenqualitätsproblemen – entweder man stellt ein Team ein oder man investiert in eine Softwarelösung. Die meisten Unternehmen ziehen es vor, eine unternehmensinterne Lösung für die Datenbereinigung zu entwickeln, indem sie Spezialisten einstellen oder ihr IT-Team damit beauftragen, das Nötige zu tun – nur um am Ende von den Verzögerungen und den damit verbundenen Kosten für Investitionen in Menschen, Systeme und Ressourcen enttäuscht zu sein.

Im Gegensatz dazu bietet die Investition in eine Software mehr Flexibilität, erledigt die Aufgabe schneller und kostet deutlich weniger. Der einzige Haken? Sie müssen suchen, erkunden und aus der Vielzahl der Möglichkeiten eine Lösung finden, die am besten zu Ihren geschäftlichen Anforderungen passt.

1. Der Ansatz „Ein Team anheuern, um es zu tun“:

Es ist selbstverständlich, dass jedes Unternehmen, ob groß oder klein, ein eigenes IT-Team hat. Die Optimierung der Datenqualität ist kein Hexenwerk, aber es ist eine Arbeit, für die IT-Teams in Unternehmen kaum die Zeit oder den Fokus haben.

Das Ergebnis? Wenn Datenanalysten oder -spezialisten hinzugezogen werden, um Daten auszuwerten, erhalten sie veraltete, unvollständige oder unzusammenhängende Listen.

Sie müssen dann zusätzliche Teammitglieder einstellen, die Algorithmen entwickeln, um die Daten sinnvoll zu nutzen. Auch dann werden Sie nicht genaue, präzise Ergebnisse.

Mittendrin geben Sie Hunderttausende von Dollar aus, um neue Mitarbeiter einzustellen, neue Prozesse zu implementieren und Monate, wenn nicht sogar Jahre, damit zu verbringen, dass alles in Ordnung ist.

Hier ist eine Kostenaufstellung.

Das sind die voraussichtlichen Kosten für den Fall, dass Sie das Projekt in einem Jahr abschließen. Den meisten Unternehmen geht innerhalb von 6 Monaten das Budget aus. Langfristig gesehen spart man nicht wirklich Geld. Darüber hinaus gehen Sie bei der Genauigkeit Kompromisse ein.

2. Der Software-Ansatz

Die meisten Unternehmen sind zu der Erkenntnis gelangt, dass es teuer und kontraproduktiv ist, ein Team mit der Sortierung ihrer Datenbank zu beauftragen.

Die andere Möglichkeit besteht darin, in Softwarelösungen zu investieren, von denen es mehrere Arten gibt. Es gibt erstklassige Lösungen wie IBM, SAS, Informatica und Oracle, die auf Unternehmensdaten zugeschnitten sind, benötigen jedoch geschulte Fachleute für die Bedienung jeder dieser Lösungen.

Dann gibt es Spitzenlösungen wie Talend, Attaccama und Informatica, die eine Reihe von Produkten für Data Engineering, Cloud-Integration, Datensicherheit und vieles mehr anbieten. Diese Lösungen sind für große Unternehmen gedacht, die eine umfassende Datenlösung wünschen.

Schließlich gibt es noch eine mittelgroße, selbst entwickelte Software für den Listenabgleich, die Fuzzy-Logik-Methoden (Abgleich von Zeichenketten mit ähnlichen Mustern) verwendet, um Duplikate zu erkennen und zu entfernen. Langfristig gesehen brauchen Sie jedoch mehr als nur einen unscharfen Abgleich, um Ihre Daten zu bereinigen.

Hauptmerkmale einer Software für den Listenabgleich

Wie können Sie bei der großen Auswahl entscheiden, welche Softwarelösung für Sie am besten geeignet ist?

Um diese Frage zu beantworten, müssen Sie wissen, welche Schlüsselfunktionen eine Datenbereinigungs- oder Listenabgleichssoftware haben muss und wie diese Funktionen Ihnen helfen können, die verschiedenen Aspekte Ihrer Datenabgleichs- und Bereinigungsziele zu erreichen.

Daten-Profilierung

Beider Datenprofilierung werden Ihre Daten auf ihre Richtigkeit, Vollständigkeit und Gültigkeit hin überprüft. Eine gute Software für den Listenabgleich ermöglicht es Ihnen, ein Profil Ihrer Daten zu erstellen, bevor Sie von einem Altsystem zu einem neuen System migrieren. In der Profiling-Phase werden Ihre Daten auf leere oder ungültige Werte, anomale Muster und Datenduplikate untersucht. Für Altsysteme mit jahrelangen Datenbeständen und Tausenden von Fehlern ist die Datenprofilierung eine Notwendigkeit. Es hilft Ihnen, Probleme mit der Datenqualität bereits an der Quelle zu erkennen und spart Ihnen in späteren Phasen Zeit.

Semantisches Tagging

Wenn Daten aus verschiedenen Quellen eingehen, ist es oft schwierig, alle Felder, die identifizierbare Informationen enthalten, sinnvoll zuzuordnen. So werden beispielsweise Geburtsdaten häufig unter dem Feld „Datum“ registriert. Es ist nicht klar, ob es sich um ein Geburtsdatum oder ein Ereignisdatum handelt. Das Feld Datum wird mit dem semantischen Tag „Geburtsdatum“ versehen, der später bei der Identitätsauflösung hilft.

Persönliche Identifikationsdaten können Vorname, Nachname, E-Mail-Adressen, Rechnungsadressen usw. sein. Der Zweck der semantischen Kennzeichnung besteht darin, den Sinn von Daten zu erkennen und den Datenbereinigungsprozess zu beschleunigen.

Bereinigung von Daten

Nach der Kennzeichnung der Felder ist der nächste Prozess die Normalisierung und Bereinigung der Daten. Das bedeutet, dass Felder, die nicht standardisiert sind, normalisiert werden. So wird zum Beispiel die Adresse 47 W. 13th St. NY, US normalisiert zu „47 W 13th STREET, New York, USA“.

Während des Datenbereinigungsprozesses werden Spamdaten oder unvollständige Daten als „Nicht verfügbar“, „Null“ oder „Abgelehnt“ gekennzeichnet, um sicherzustellen, dass gefälschte Daten frühzeitig aussortiert und bereinigt werden.

Passend dazu

Der Abgleich ist die wichtigste Funktion des Identitätsauflösungsprozesses. Fast jede High-End-Datenlösung bietet den Datenabgleich als Kerndienstleistung an. Dies ist der Prozess, bei dem die Software Datensätze vergleicht und Verbindungen herstellt. Es gibt drei Hauptverfahren, mit denen dies bei Daten auf Unternehmensebene durchgeführt wird.

    • Blockieren: Bei einem Abgleich müssen Millionen von Datensätzen abgeglichen und miteinander verglichen werden. Wenn Sie also einen Datensatz haben, der beispielsweise eine Million Datensätze enthält, müssen Sie 1 Million x 1 Million Datensätze vergleichen. Dies ist ein äußerst ineffektiver und langsamer Prozess, um nicht zu sagen: rechenaufwendig. Um diese Datensätze zu vergleichen, wird eine einfache Blockierungsregel verwendet, um die Datensätze in kleinere „Blöcke“ aufzuteilen, die miteinander abgeglichen werden. Bei den Blöcken handelt es sich um Paare von Datensätzen, die mit größerer Wahrscheinlichkeit übereinstimmen – so können beispielsweise Geburtsdaten in verschiedene Blöcke wie Geburtsjahr, Geburtsmonat und Geburtstag unterteilt werden. Alle drei Spalten können gleichzeitig verwendet werden, um Ihren ersten Blockabgleich durchzuführen.
    • Paarweiser Vergleich und Punktevergabe: Diese Methode vergleicht Datensätze innerhalb eines Blocks. Sie können zum Beispiel einen BirthDate-Block mit einem Name-Block vergleichen, um festzustellen, ob zwei der Blöcke übereinstimmen.
  • Clustering: Das Clustering ist ein notwendiger Aspekt des Datenabgleichs und führt zu schnelleren Abgleichsergebnissen, indem ein oder mehrere Bezeichnerwerte im Datensatz manipuliert und mit den Bezeichnerwerten geclustert werden. So können beispielsweise Namen, die auf „Smith“ enden, in einer Gruppe zusammengefasst werden, die dann weiter überprüft wird, um festzustellen, ob es widersprüchliche Übereinstimmungen gibt. Datensätze in verschiedenen Clustern werden nicht miteinander verglichen und Cluster mit einem einzigen Datensatz werden beim Abgleich nicht verwendet.

Standardisierung von Daten

Wenn Sie Ihre Daten sortiert haben, sollten Sie als Nächstes Ihre Liste bereinigen. Dazu werden doppelte Einträge gelöscht, ungültige, leere oder unvollständige Daten herausgefiltert und die Liste gesäubert, um sicherzustellen, dass Ihre Daten blitzsauber sind.

Am Ende des Prozesses werden die Daten validiert, und die endgültigen Versionen werden an die verschiedenen Abteilungen des Unternehmens weitergeleitet. Hier müssen Sie eine Standardisierung der Daten vornehmen, was bedeutet, dass alle Ihre Daten in einem gemeinsamen Format gespeichert werden sollten. Das beteiligte Personal oder die Personen, die mit den Daten umgehen, müssen in der Standardisierung geschult werden.

Bei der Datenerhebung geht es nicht um Quantität , sondern um Qualität. Sie wollen keine 100 E-Mail-Adressen – Sie wollen 100 korrekte, vollständige, brauchbare E-Mail-Adressen. In der realen Welt gibt es 28 von 100 Adressen, die ungültig oder unbrauchbar sind.

Datenbereinigung und -standardisierung stellen daher sicher, dass Sie über Daten verfügen, mit denen Sie arbeiten können und denen Sie vertrauen können.

Zusätzliche Merkmale einer erstklassigen Software für den Listenabgleich

Außerdem gibt es einige wichtige Funktionen, die eine gute Software für den Listenabgleich haben muss:

Schnell: Der Zweck des Einsatzes einer Softwarelösung für das Scrubbing von Listen ist es, so schnell wie möglich Ergebnisse zu erzielen. Unternehmen haben nicht das Privileg, Monate oder Jahre zu warten, um bestimmte Informationen zu erhalten – wenn sie die Umsatzzahlen für eine neue Filiale benötigen, brauchen sie sie schnell. Die Software kann diese Daten in wenigen Minuten abrufen, während ein Team Stunden, wenn nicht sogar Tage damit verbringen würde, mehrere Abfragen durchzuführen, um die benötigten Daten sofort zu erhalten.

Präzise: Die Genauigkeit ist ein kritischer Punkt des Datenqualitätsmanagements. Erstklassige Software für den Listenabgleich entfernt Duplikate mit Präzision und gewährleistet so die Genauigkeit der Daten. In 15 unabhängigen Studien wurde die Matching-Genauigkeit von Data Ladder mit 96 % für drei Datensätze von 40 000 bis 4 Millionen gemessen – höher als die von IBM mit 88 % und SaS mit 84 %.

Vollständige Werkzeuge: Wenn das Ziel das Datenqualitätsmanagement ist, brauchen Sie ein komplettes Set von Tools und nicht nur eine Einzellösung. Das richtige Werkzeug ermöglicht es Ihnen, Daten zu profilieren, abzugleichen, zu bereinigen und zu standardisieren.

Einfache Integration: Ein kurzes Beispiel: Data Ladder lässt sich mit mehr als 150 Datenplattformen integrieren. Ob Salesforce oder Zoho, Sie können Ihre Datenbank einfach mit Data Ladder verbinden.

Skalierbar: Die Messung von ein paar Millionen Datensätzen ist einfach. Die Messung von einigen hundert Millionen Datensätzen ist eine ganz andere Technologie, die nur von einer skalierbaren Software für die Listenbereinigung bewältigt werden kann. Wenn Sie in eine Datenqualitätslösung investieren, stellen Sie sicher, dass sie Sie bei der Skalierung Ihrer Daten unterstützen kann.

Amec Foster Wheeler Fallstudie

Amec Foster Wheeler plc war ein britisches multinationales Beratungs-, Ingenieur- und Projektmanagementunternehmen mit Hauptsitz in London, Vereinigtes Königreich, bis es im Oktober 2017 von der Wood Group übernommen und mit ihr fusioniert wurde.

Angesichts der steigenden Anforderungen in der Umwelttechnikbranche musste das Unternehmen seine Geschäftsprozesse für den anstehenden Zustrom von Projekten und Personalaufgaben rationalisieren.

Das Unternehmen war gerade dabei, auf ein neues Finanz- und Personalsystem umzusteigen, und wusste, dass die Qualität seiner Daten verbessert werden musste, bevor es den nächsten wichtigen Schritt machen konnte.

Mit DataMatch™, der Datensoftware von Data Ladder, konnte das Unternehmen seine Deduplizierungsbemühungen verwalten. Angesichts der großen Aufgabe, alle vorhandenen Finanz- und Personaldaten in ein neues System zu migrieren, plant das Unternehmen, DataMatch™ auch für die Bereinigung und Neubefüllung seiner Systeme einzusetzen.

Der Vorteil? Dank erstklassiger Datenbereinigungs- und Deduplizierungsfunktionen in Kombination mit maßgeschneiderten Schulungen durch Data Ladder-Spezialisten konnte der Kunde nicht nur die Genauigkeit seiner Daten aufrechterhalten, sondern auch ein hohes Maß an Datenqualität gewährleisten, das für die Migration in seine neuen Finanz- und HR-Systeme erforderlich war.

Sie können die Fallstudie herunterladen, um die Herausforderungen, die Geschäftssituation und die Art und Weise zu lesen, wie unsere Lösungen dem Unternehmen geholfen haben, die gewünschten Geschäfts- und Datenqualitätsziele zu erreichen.

Schlussfolgerung

Probleme mit der Datenqualität und dem Listenabgleich sind für Unternehmen seit jeher ein Problem. In der heutigen Welt gibt es jedoch buchstäblich Dutzende von Lösungen, die Ihnen bei der Datenbereinigung helfen können. Allerdings sind die Anforderungen jedes Unternehmens unterschiedlich, so dass eine Kombination verschiedener Tools erforderlich ist. Vielleicht möchten Sie DataMatch™ von Data Ladder verwenden, um Ihre Daten zu bereinigen, vielleicht möchten Sie aber auch die Cloud-Migrationsservices von Talend nutzen.

Für die Datenqualität gibt es keine Universallösung, aber das sollte Sie nicht davon abhalten.

Lassen Sie nicht zu, dass schlechte Daten Ihr Unternehmenswachstum beeinträchtigen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.