Blog

Der endgültige Leitfaden für den Kauf von Datenqualitätstools

Eine kürzlich durchgeführte Umfrage ergab, dass der wichtigste KPI für Datenteams im Jahr 2021 die Qualität und Zuverlässigkeit der Daten ist. Die Mehrheit der Befragten gab jedoch an, dass sie keine Datenqualitätssoftware oder -tools verwenden und sich auf manuelle Datenqualitätsprüfungen verlassen. Als größte Herausforderung für die Datenteams wurde die geringe Produktivität aufgrund manueller Arbeit und fehlender automatisierter Prozesse genannt.

Viele Unternehmensleiter und Entscheidungsträger spielen mit dem Gedanken, Technologien einzuführen und Prozesse zu automatisieren, aber nur sehr wenige tun tatsächlich etwas dafür. Das Gleiche gilt für die Datenteams der meisten Unternehmen. Es stimmt, dass die Einführung einer neuen Technologie zur Digitalisierung eines beliebigen Aspekts Ihres Unternehmens potenziell bestehende Prozesse stören und zahlreiche Herausforderungen mit sich bringen kann. Die Lösung dieser Probleme kann sich jedoch langfristig als sehr vorteilhaft erweisen – insbesondere für die Produktivität und Leistung Ihres Teams sowie für konsistente Geschäftsergebnisse.

Dieser Blog soll Ihnen helfen, die verschiedenen Merkmale und Funktionen zu verstehen, die in Datenqualitäts-Tools enthalten sind, sowie die Faktoren, die Sie bei der Auswahl einer Datenqualitätslösung für Ihren speziellen Anwendungsfall berücksichtigen sollten.

Merkmale, die ein Datenqualitätstool aufweisen sollte

Beim Kauf eines Software-Tools sind drei wichtige Aspekte zu beachten. Dazu gehören:

  1. Die realen Prozesse, die die Lösung erleichtern kann,
  2. Die zusätzlichen Funktionen und Möglichkeiten, die die Ausführung dieser Prozesse verbessern,
  3. Die inhärenten Plattformfunktionen, die die Arbeitseffizienz verbessern.

Im Folgenden werden all diese Aspekte für Datenqualitäts-Tools ausführlicher behandelt:

1. Prozesse der Datenqualität

Ihre Daten sind wahrscheinlich durch eine Vielzahl von Datenqualitätsfehlern verunreinigt. Und um diese Probleme zu beheben, müssen sie einem vollständigen, durchgängigen Lebenszyklus des Datenqualitätsmanagements unterzogen werden.

Das Datenqualitätsmanagement umfasst in der Regel eine Liste von systematischen Prozessen. Die genaue Anzahl und Art dieser Prozesse hängt von Ihren Bedürfnissen und dem Zustand Ihrer Daten ab. Sehen wir uns die häufigsten und wichtigsten Datenqualitätsprozesse an, die ein Datenqualitäts-Tool unterstützen muss, und was jeder von ihnen bedeutet.

a. Dateneingabe

Die Fähigkeit, Daten aus einer Vielzahl von Datenquellen zu verbinden, aufzunehmen und zu integrieren – einschließlich Unterstützung für verschiedene Dateiformate, Datenbanken, lokale und Cloud-Speicher sowie Anwendungen von Drittanbietern.

b. Datenprofilierung

Die Möglichkeit, eine sofortige 360°-Sicht auf Ihre Datenqualität zu erhalten, indem leere Werte, Felddatentypen, wiederkehrende Muster und andere deskriptive Statistiken identifiziert werden, die den Zustand Ihrer Daten und potenzielle Datenbereinigungsmöglichkeiten aufzeigen.

c. Parsing von Daten

Die Fähigkeit, lange Zeichenfolgen zu analysieren und wichtige Komponenten zu identifizieren, so dass sie anhand einer Bibliothek mit genauen Werten validiert werden können. So werden beispielsweise vollständige Namen analysiert, um Vor-, Mittel- und Nachnamen zu ermitteln, und Spitznamen und andere Abkürzungen werden in Eigennamen umgewandelt.

d. Datenbereinigung und -standardisierung

Die Möglichkeit, inkonsistente und ungültige Werte zu eliminieren, Muster zu erstellen und zu validieren, Formate umzuwandeln und eine standardisierte Ansicht über alle Datenquellen hinweg zu erhalten.

e. Konfiguration und Ausführung des Datenabgleichs

Die Möglichkeit, eigene oder branchenführende Datenabgleichsalgorithmen auszuwählen, zu konfigurieren und auszuführen und sie je nach Art der Datensätze fein abzustimmen, um potenzielle Datensatzübereinstimmungen zu ermitteln.

f. Analyse der Ergebnisse des Datenabgleichs

Die Fähigkeit, die Trefferergebnisse und ihre Konfidenzniveaus zu bewerten, um falsche Treffer zu erkennen und den Stammsatz zu bestimmen.

g. Deduplizierung von Daten

Die Möglichkeit, doppelte Datensätze zu markieren und zu eliminieren, d. h. Datensätze, die sich auf dieselbe Person beziehen.

h. Datenzusammenführung und Überlebensfähigkeit

Die Möglichkeit, Datensätze zusammenzuführen, indem eine nach Prioritäten geordnete Liste von benutzerdefinierten Regeln für die automatische Auswahl von Stammsätzen und das bedingte Überschreiben von Daten erstellt wird.

i. Daten exportieren oder laden

Die Möglichkeit, Ergebnisse in die Quelldatei oder eine andere Zielquelle zu laden oder zu exportieren.

2. Zusätzliche Funktionen zur Verbesserung der Prozessausführung

Viele Anbieter und Dienstleister behaupten, die Digitalisierung bestimmter Prozesse zu erleichtern. Aber die Funktionen, die zur Verbesserung der Ausführung dieser Prozesse angeboten werden, sind ein wichtiger Aspekt bei der Beurteilung, was ein Softwaretool für Sie tun kann. Im Folgenden werden einige Beispiele für solche Funktionen in einem Datenqualitäts-Tool genannt:

a. Massenstandardisierung zur Beseitigung von Rauschen

Oftmals enthält ein Datensatz bestimmte Wörter, die für Ihre Datenspalten keinen großen Wert darstellen und nur das Rauschen verstärken. Solche Wörter können bei der Datenstandardisierung und beim Datenabgleich Probleme verursachen.

Um Rauschen zu entfernen, überprüft, ersetzt, kennzeichnet oder löscht das Datenqualitätsteam jedes verrauschte Wort in einem Datensatz manuell. Hier kann ein spezialisiertes Textverarbeitungsprogramm sehr nützlich sein. Wie der Name schon sagt, erstellt ein Wordmith-Tool ein Profil einer Datenspalte, um die sich am häufigsten wiederholenden Wörter in dieser Spalte und deren Anzahl zu ermitteln, und ermöglicht es Ihnen, Massenoperationen an diesen Wörtern durchzuführen.

In einem Unternehmensdatensatz können Sie beispielsweise drei verschiedene Werte haben:

  1. XYZ LLC
  2. XYZ Inc.
  3. XYZ Incorporated

Sie können sehen, dass alle drei Firmennamen eigentlich gleich sind und die Wörter „LLC“, „Inc.“ oder „Incorporated“ nur ein zusätzliches Geräusch sind und Duplikate derselben Einheit erzeugen. Mit Hilfe einer Textverarbeitung können Sie solche Wörter aus der gesamten Spalte entfernen, so dass die eigentlichen Firmennamen übrig bleiben.

Ein Datenqualitätstool, das Ihre Datensätze bis auf Wortebene profiliert und standardisiert, kann die Produktivität Ihres Teams exponentiell verbessern, da es ihm viel Zeit und Mühe erspart.

b. Eingebaute und benutzerdefinierte Mustervorlagen

Bei der Bereinigung und Standardisierung von Datensätzen müssen Sie häufig die Muster und Formate der Datenwerte validieren. Datenqualitätstools, die über integrierte Vorlagen für die Mustererkennung verfügen, verbessern die Effizienz Ihrer Datenstandardisierungs- und -validierungsprozesse.

Diese vorgefertigten Vorlagen können bei der Validierung der Muster gängiger Felder wie E-Mail-Adressen, US-Telefonnummern, Datums- und Zeitstempel und vielem mehr helfen.

Wenn die Datenqualitätssoftware darüber hinaus den Entwurf benutzerdefinierter regulärer Ausdrücke und die Validierung proprietärer Muster unterstützt, kann sich dies als sehr nützlich für Ihre speziellen Anforderungen erweisen.

c. Planen Sie Datenqualitätsaufträge für die Stapelverarbeitung

Obwohl Datentools viele Prozesse digitalisieren und automatisieren können, erfordern sie immer noch menschliche Interaktion:

  • Initialisierung des Prozesses und Bereitstellung von Eingaben,
  • Beaufsichtigung der Durchführung des Prozesses,
  • Überprüfen der Ergebnisse und Verschieben der Ausgabe zur Zielquelle.

Die Planung von Datenqualitätsaufträgen für die Stapelverarbeitung ist eine wichtige Funktion, die Ihnen helfen kann, große Datenmengen effizient zu verwalten. Sie können die häufigsten oder sich wiederholenden Datenqualitätsaufgaben planen, die dann an einem bestimmten Datum und zu einer bestimmten Uhrzeit pro Tag/Woche/Monat wie geplant ausgelöst werden.

Auf diese Weise kann der Wartungsaufwand reduziert, menschliches Versagen minimiert und regelmäßig konsistente Ergebnisse erzielt werden.

d. Integration von Datenqualitätsfunktionen in Echtzeit

Im Gegensatz zur Stapelverarbeitung benötigen manche Unternehmen eine Datenstromverarbeitung. Das bedeutet, dass die eingehenden Daten zur Laufzeit auf ihre Datenqualität geprüft und bei Bedarf transformiert werden, bevor sie in die Zielquelle geladen werden.

Dies kann den Prozess des Datenqualitätsmanagements zu Beginn wahrscheinlich etwas komplizierter machen. Aber wenn man den Echtzeit-Datenqualitätsfluss erst einmal im Griff hat, kann er sehr vorteilhaft sein. Einige Anbieter bieten diese Fähigkeit als API oder SDK an, so dass Sie branchenübliche Datenqualitätsfunktionen übernehmen und in Ihre benutzerdefinierten Datenqualitätsabläufe implementieren können.

e. CASS-zertifizierte Adressprüfung

Viele Stammdatenobjekte in einem Unternehmen enthalten Adressfelder. Zum Beispiel die Adresse eines Kunden, die Adresse einer Filiale, die Adresse eines Mitarbeiters und so weiter. Wenn es um die Überprüfung oder Standardisierung von Adressen geht, bieten einfache oder allgemeine Datenqualitätswerkzeuge keinen großen Nutzen. Und die Überprüfung, ob es sich bei einer Adresse um einen physischen, postalisch erreichbaren Ort im Bezirk handelt und ob sie einem weltweit akzeptierten Format entspricht, kann zu einer großen Herausforderung werden.

In solchen Fällen müssen die Datenqualitätswerkzeuge in der Lage sein, die Adressen anhand einer offiziellen Datenbank (z. B. des USPS in den USA) zu überprüfen. Vergewissern Sie sich bei der Suche nach solchen Merkmalen, dass sie für das Anbieten solcher Dienste zertifiziert sind.

CASS (Coding Accuracy Support System) ist beispielsweise ein Zertifizierungsprogramm des USPS, das sicherstellen soll, dass Softwareanbieter die USPS-Informationen zur Validierung und Standardisierung von Adressdaten für ihre Nutzer korrekt verwenden. Um sich für die CASS-Zertifizierung zu qualifizieren, müssen Softwareanbieter in ihren Diensten eine Zustellpunktvalidierung (DPV) und ein lokalisierbares Adresskonvertierungssystem anbieten.

3. Intrinsische Fähigkeiten der Plattform

In jedem Unternehmen besteht der Hauptgrund für die Digitalisierung von Prozessen und die Einführung von Technologien darin, die Arbeitseffizienz zu verbessern. Aus diesem Grund reicht es nicht aus, wenn ein Softwaretool nur reale Szenarien unterstützt. Es muss einige grundlegende Funktionen bieten, die die Arbeit erleichtern und beschleunigen und die Genauigkeit der Ergebnisse verbessern.

Für ein Datenqualitätswerkzeug können solche Funktionen sein:

a. Geschwindigkeit

Die oben genannten Datenqualitätsprozesse sind im Allgemeinen rechenintensiv und ressourcenintensiv. Und ein nicht optimiertes und schlecht konzipiertes Software-Tool kann Stunden für die Bearbeitung einfacher Aufträge benötigen. Bevor Sie sich für ein Werkzeug entscheiden, sollten Sie es testen und seine Geschwindigkeit bei der Erstellung von Ergebnissen für verschiedene Datenproben bewerten. Darüber hinaus sollten Sie auch prüfen, ob das Tool in der Lage ist, Datensätze mit gleicher Geschwindigkeit zu verarbeiten.

[DataMatch Enterprise benötigt etwa 2 Minuten, um 2 Millionen Datensätze zu bereinigen und zu standardisieren.]

b. Genauigkeit

Eine höhere Geschwindigkeit hilft nicht, wenn die Ergebnisse ungenau oder inkonsistent sind. Datenqualitäts-Tools, die branchenübliche und proprietäre Algorithmen für die Profilerstellung, Bereinigung, Standardisierung, den Abgleich und die Zusammenführung von Daten einsetzen, können genauere Ergebnisse liefern als solche, die einfache statistische oder bedingte Algorithmen verwenden.

Natürlich können auch die besten Instrumente nicht immer zu 100 % genau sein. Ziel sollte es sein, ein Werkzeug zu finden, das über eine Vielzahl von Datenproben hinweg konsistent maximale Genauigkeit bietet.

[DataMatch Enterprise ist nachweislich zu 96 % genau für Stichproben zwischen 40 000 und 8 Millionen Datensätzen.]

c. Skalierbarkeit

Beurteilen Sie, ob das Datenqualitätstool skalierbar ist und einer wachsenden Datenmenge sowie steigenden Nutzerzahlen standhalten kann. Vielleicht haben Sie in Ihrem Unternehmen noch keine großen Datensätze, aber der Umfang der Daten kann mit der Zeit exponentiell ansteigen. Außerdem kann es sein, dass Sie zunächst mit einem einzigen Teammitglied beginnen, das das Tool nutzen wird, aber Sie möchten vielleicht später mehr Nutzer in Ihren Plan aufnehmen. Vergewissern Sie sich, dass der Anbieter solche Skalierbarkeitsfunktionen und -pläne anbietet.

d. Benutzerfreundlichkeit

Ein Datenqualitätstool, das eine einfachere Benutzeroberfläche hat und sich auf die Anpassungsfähigkeit der Benutzer konzentriert, ist eine wichtige Sache, die man in Betracht ziehen sollte. Das Tool muss selbsterklärend sein und sollte den Benutzer Schritt für Schritt durch verschiedene Datenqualitätsprozesse führen. Eine intuitiv bedienbare Benutzeroberfläche mit einfachem UX-Schreiben kann Geschäftsanwendern helfen, technische Aufgaben innerhalb der Software bequem auszuführen, wie z. B. die Verbindung zu Datenbanken, die Auswertung von Datenprofilberichten, die Abstimmung von Abgleichsalgorithmen und so weiter.

e. Unterstützung

Das Bereinigen und Abgleichen riesiger Datenmengen kann selbst mit einem geeigneten Datenqualitätstool überwältigend erscheinen. Wenn ein Anbieter Support, Schulungen oder andere professionelle Dienstleistungen anbietet, um Ihnen bei den ersten Schritten zu helfen oder Sie durch den Prozess zu führen, wenn Sie nicht weiterkommen, kann dies für Ihr Team sehr nützlich sein.

Wie werden diese Funktionen in Software-Tools verpackt?

Nach der Bewertung der Funktionen und Möglichkeiten eines Datenqualitätstools ist es wichtig zu verstehen, wie die Anbieter diese Funktionen in ihren Produkt- und Serviceangeboten üblicherweise verpacken.

1. Eigenständige Datenqualitäts-Tools zur Selbstbedienung

Diese Tools haben mehr oder weniger die gleichen Merkmale wie die oben genannten. Sie stellen keine Echtzeit-Verbindung zu anderen Datenquellen her. Daher werden diese Tools meist für die Stapelverarbeitung (einschließlich Datenprofilierung, -bereinigung, -standardisierung, -abgleich und -zusammenführung) und das anschließende Laden der konsolidierten Datensätze zurück in die Zielquelle verwendet.

Einige zusätzliche Vorteile sind:

  • Schnellste und sicherste Methode zur Konsolidierung von Datensätzen.
  • Einfachste Feinabstimmung der Abgleichsalgorithmen und Zusammenführungsregeln in Abhängigkeit von der aktuellen Datenlage.
  • Einige dieser Tools verfügen über spezielle Wörterbücher, die es ermöglichen, genaue Wörter zu finden (z. B. Vor-, Mittel- und Nachnamen) und falsch geschriebene oder fehlende Felder zu ersetzen.
  • Einige Tools unterstützen auch die Planung von Datenqualitätsmanagementaufgaben und die Erstellung konsolidierter Datensätze zu bestimmten Zeiten.
  • Besonders hilfreich für die Konsolidierung von E-Mail-Marketinglisten, Kontakten und Kundendaten.

2. Datenqualität API oder SDK

Einige Anbieter stellen notwendige Datenqualitätsfunktionen über APIs oder SDKs zur Verfügung. So können Sie alle Funktionen des Datenqualitätsmanagements in Echtzeit oder zur Laufzeit in Ihre bestehenden Anwendungen integrieren.

Dies kann einige zusätzliche Anstrengungen erfordern, aber einige Vorteile sind:

  • Nützlich bei der Implementierung benutzerdefinierter Abläufe (insbesondere für Data Governance), die für Ihre Geschäftsanforderungen wichtig sind.
  • Kann als Datenqualitäts-Firewall für Ihr Data Warehouse fungieren, wo eingehende Daten vor der Eingabe auf ihre Qualität geprüft werden.

3. Datenqualität eingebettet in Datenmanagement-Tools

Hier ist es wichtig zu verstehen, dass einige Anbieter Datenqualitätsfunktionen in zentralisierte Datenverwaltungsplattformen einbetten, so dass alles in der gleichen Datenpipeline erledigt werden kann. Obwohl dies ein sehr guter Ansatz zu sein scheint, gibt es bei der Auswahl eines Datenmanagement- und Datenqualitätswerkzeugs einige Herausforderungen zu beachten. Um beispielsweise ein durchgängiges Datenverwaltungssystem mit eingebetteten Datenqualitätsfunktionen zu entwickeln, müssen Sie eine detaillierte Planung und Analyse durchführen und die wichtigsten Interessengruppen bei jedem Schritt des Prozesses einbeziehen.

Solche Systeme werden oft als Stammdatenverwaltungslösungen angeboten. Der Begriff „Stammdatenmanagement“ bezieht sich auf eine Sammlung von Best Practices für das Datenmanagement, die Datenintegration, Datenqualität und Data Governance umfassen.

Je nach Zweck und Verwendung eines MDM können sie als operativ (für routinemäßige Datenoperationen) oder analytisch (für Analyse- oder Business Intelligence-Zwecke) eingestuft werden.

4. Kundenspezifische interne Lösungen

Trotz der zahlreichen Lösungen für Datenqualität und Stammdatenmanagement, die auf dem Markt erhältlich sind, investieren viele Unternehmen in die Entwicklung einer eigenen Lösung für ihre individuellen Datenanforderungen. Obwohl dies sehr vielversprechend klingt, verschwenden die Unternehmen bei diesem Prozess oft eine große Anzahl von Ressourcen – Zeit und Geld -. Die Entwicklung einer solchen Lösung mag zwar einfacher zu implementieren sein, aber es ist fast unmöglich, sie auf Dauer zu erhalten.

Wenn Sie mehr zu diesem Thema erfahren möchten, lesen Sie unser Whitepaper: Warum interne Datenqualitätsprojekte scheitern.

Faktoren, die bei der Auswahl eines Datenqualitätstools zu berücksichtigen sind

Nachdem wir nun die wichtigsten Funktionen und Merkmale einer Datenqualitätslösung kennengelernt haben und wissen, wie die verschiedenen Anbieter diese als Tools verpacken, gibt es noch einige weitere Faktoren, die Sie berücksichtigen sollten, bevor Sie eine endgültige Entscheidung treffen. Dazu gehören:

1. Geschäftliche Anforderungen

Nicht jede Lösung wird alle Ihre Anforderungen erfüllen. Ziel sollte es sein, das Werkzeug zu finden, das für Sie die meisten Kriterien erfüllt. Ein weiterer hilfreicher Schritt ist die Ermittlung der wichtigsten Leistungsindikatoren (KPIs) für die Datenqualität. Datenqualität kann für jedes Unternehmen etwas anderes bedeuten. Sobald Sie Ihre eigene Definition von „Datenqualität“ erkannt und identifiziert haben, wird es einfacher zu wissen, welche Lösung diese am besten unterstützt und Ihnen dabei hilft, Datenqualität in Ihren Kerndatenbeständen einzuführen, zu pflegen und zu erhalten.

2. Zeit und Budget

Die Einführung jeder technologischen Lösung erfordert Investitionen in Zeit und Budget. Einige Tools – vor allem solche, die ein umfassendes Datenmanagement abdecken – erfordern mehr Zeit, Überlegungen, Vorplanung und die Einbeziehung von Interessengruppen.

Außerdem können Sie die Preise und Pläne verschiedener Anbieter vergleichen, um herauszufinden, welches Tool am besten zu Ihrem Budget passt.

3. Präferenzen des Datenqualitätsteams

Dies ist der letzte und definitiv wichtigste Entscheidungspunkt. In Ihrem Unternehmen können viele Personen Daten generieren, aber die Verantwortung für die Verwaltung der Datenqualität kann Ihrem Datenqualitätsteam zugewiesen werden, zu dem Datenanalysten, Datenverwalter oder Datenmanager gehören. Aus diesem Grund ist es am besten, ihnen die Wahl des Werkzeugs zu überlassen, das sie benötigen und in ihrer täglichen Arbeit einsetzen werden.

Schlussfolgerung

Ganz gleich, wie gut Ihr Datenqualitätsteam ausgebildet ist, es wird immer noch Schwierigkeiten haben, ein akzeptables Niveau der Datenqualität aufrechtzuerhalten, solange es nicht mit den richtigen Tools ausgestattet ist. An dieser Stelle kann ein Datenqualitätsmanagement-Tool sehr nützlich sein. Ein All-in-One-Tool zur Selbstbedienung, das Datenprofile erstellt, verschiedene Datenbereinigungsaktivitäten durchführt, Duplikate abgleicht und eine einzige Quelle der Wahrheit ausgibt, kann ein großer Unterschied in der Leistung von Datenverantwortlichen und Datenanalysten sein.

DataMatch Enterprise ist ein solches Tool, das es den Datenteams erleichtert, Datenqualitätsfehler schnell und präzise zu beheben und sich auf wichtigere Aufgaben konzentrieren zu können. Datenqualitätsteams können innerhalb weniger Minuten Profile erstellen, bereinigen, abgleichen, zusammenführen und Millionen von Datensätzen bereinigen und so viel Zeit und Mühe sparen, die normalerweise für solche Aufgaben verschwendet wird.

Um mehr darüber zu erfahren, wie DataMatch Enterprise helfen kann, können Sie noch heute eine kostenlose Testversion herunterladen oder eine Demo mit einem Experten buchen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.