Blog

5 Datenqualitätsprozesse, die man kennen sollte, bevor man einen DQM-Rahmen entwirft

Die meisten Unternehmen, die versuchen, datengesteuert zu werden, nennen schlechte Datenqualität als eine der 5 größten Herausforderungen. Invesp veröffentlichte einen Bericht, in dem sie herausfanden, dass 54 % der Unternehmen unvollständige Daten und schlechte Datenqualität als größte Herausforderung für datengesteuertes Marketing nennen.

Unternehmensleiter wissen, wie wichtig die Nutzung von Daten in verschiedenen Abteilungen ist. Aber die Daten sind heute viel komplexer als noch vor 10 Jahren. Sie ist multivariat, was bedeutet, dass sie in mehreren Dimensionen gemessen werden muss; außerdem ändert sie sich häufig und hat exponentiell an Umfang zugenommen. Unternehmen erkennen, dass einfache Techniken zur Verwaltung der Datenqualität nicht ausreichen. Sie müssen einen durchgängigen Rahmen für die Datenqualität implementieren, der aktuelle Fehler behebt und künftige Fehler verhindert.

In diesem Blog werden wir uns mit den häufigsten und wichtigsten Datenqualitätsprozessen befassen. Anhand dieser Informationen können Sie feststellen, was in Ihrem Fall von Vorteil sein könnte.

Datenqualitätsprozesse versus Datenqualitätsrahmen / Lebenszyklus

Bevor wir fortfahren, ist es wichtig zu erwähnen, dass dieser Blog die einzelnen, eigenständigen Prozesse beleuchtet, die zur Verbesserung der Qualität Ihrer Daten eingesetzt werden können. Die Reihenfolge, in der sie umgesetzt werden müssen, wird hier nicht erörtert. Hier kann ein Datenqualitätsrahmen nützlich sein.

Ein Datenqualitätsrahmen gibt Ihnen die genaue Anzahl und Reihenfolge der Prozesse vor, die Sie an Ihren Daten durchführen sollten, um deren Qualität zu verbessern. Sie können Ihren Lebenszyklus für die Datenqualität beispielsweise mit der Erstellung eines Fehlerprofils beginnen und mögliche Bereinigungsmöglichkeiten finden. In ähnlicher Weise können Sie den Lebenszyklus auch mit einer Datenprofilierung beenden, um zu sehen, ob noch Fehler vorhanden sind. Dies ist etwas, das ein Datenqualitätsrahmenwerk definiert.

Hier betrachten wir die einzelnen Prozesse, die bei der Implementierung eines Datenqualitätsrahmens zum Einsatz kommen. Der Rahmen selbst hängt von der Art Ihrer Daten, ihrem aktuellen Qualitätsstatus, der verwendeten Technologie und Ihren Zielen ab.

Prozesse zur Datenqualität

1. Datenprofilierung

Data Profiling bedeutet einfach, den aktuellen Zustand Ihrer Daten zu verstehen, indem versteckte Details über ihre Struktur und ihren Inhalt aufgedeckt werden. Ein Algorithmus zur Erstellung von Datenprofilen analysiert die Spalten des Datensatzes und berechnet Statistiken für verschiedene Dimensionen, wie z. B.:

  • Vollständigkeitsanalyse: Prozentsatz der fehlenden oder unvollständigen Felder.
  • Analyse der Eindeutigkeit: Prozentsatz der nicht doppelten oder eindeutigen Werte in einer Spalte.
  • Häufigkeitsanalyse: Auszählung der am häufigsten vorkommenden Werte in einer Spalte.
  • Zeichenanalyse: Zählung der Werte, die Buchstaben, Zahlen oder beides enthalten, sowie Interpunktion, führende/nachlaufende Leerzeichen, nicht druckbare Zeichen usw.
  • Statistische Analyse: Minimum, Maximum, Mittelwert, Median und Modus für numerische Spalten.
  • Musteranalyse: Anzahl der Werte, die dem richtigen Muster und Format folgen.
  • Allgemeine Analyse: Anzahl der Werte, die dem richtigen Datentyp entsprechen und innerhalb eines akzeptablen Bereichs der Zeichenlänge liegen.

Ein detaillierter Datenprofilbericht, der solche Informationen enthält, kann Wunder für Ihre Datenqualitätsmanagement-Initiative bewirken. Sie kann in mehreren Phasen Ihres Lebenszyklus durchgeführt werden, um zu verstehen, wie sich die Datenqualitätsprozesse auf die Daten auswirken.

Wenn Sie mehr über die Erstellung von Datenprofilen erfahren möchten, lesen Sie diesen Blog: Was ist Datenprofilierung: Umfang, Techniken und Herausforderungen.

2. Datenbereinigung und -standardisierung

Datenbereinigung und -standardisierung ist der Prozess der Beseitigung falscher und ungültiger Informationen in einem Datensatz, um eine konsistente und nutzbare Ansicht über alle Datenquellen hinweg zu erhalten.

Zu den üblichen Datenbereinigungs- und Standardisierungsaktivitäten gehören:

  • Entfernen und ersetzen Sie leere Werte, führende/nachlaufende Leerzeichen, bestimmte Zeichen und Zahlen, Interpunktionen usw.
  • Zerlegung aggregierter oder längerer Spalten in kleinere Unterkomponenten, z. B. das Feld Adresse in Straßennummer, Straßenname, Ort usw.
  • Umwandlung von Großbuchstaben in Kleinbuchstaben oder von Kleinbuchstaben in Großbuchstaben, um eine einheitliche, standardisierte Darstellung zu gewährleisten.
  • Gleiche oder ähnliche Spalten zusammenführen , um doppelte Spalten zu vermeiden.
  • Werte einer Spalte so umwandeln, dass sie dem richtigen Muster und Format entsprechen.
  • Führen Sie Operationen(Markieren, Ersetzen, Löschen) an den sich am häufigsten wiederholenden Wörtern in einer Spalte durch, um Rauschen massenhaft zu entfernen.

Wenn Sie mehr über Datenbereinigung und Standardisierung erfahren möchten, lesen Sie diesen Blog: Der vollständige Leitfaden für Datenbereinigungstools, Lösungen und bewährte Verfahren für Unternehmen.

3. Datenabgleich

Datenabgleich (auch bekannt als Datensatzverknüpfung und Entitätsauflösung) ist der Prozess des Vergleichs von zwei oder mehr Datensätzen und der Feststellung, ob sie zur selben Entität gehören.

Ein Datenabgleich umfasst in der Regel diese Schritte:

  • Spalten aus verschiedenen Datenquellen zuordnen, um Duplikate in verschiedenen Datensätzen abzugleichen.
  • Wählen Sie die Spalten aus, die abgeglichen werden sollen. Für den erweiterten Abgleich können Sie mehrere Spalten auswählen und diese nach Priorität ordnen, um die Genauigkeit der Abgleichsergebnisse zu erhöhen.
  • Führen Sie Datenabgleichsalgorithmen aus. Wenn Ihr Datensatz eindeutige Bezeichner enthält, können Sie einen exakten Abgleich durchführen, der Ihnen genau sagt, ob zwei Datensätze übereinstimmen oder nicht. Wenn keine eindeutigen Bezeichner vorhanden sind, müssen Sie einen Fuzzy-Abgleich durchführen, der die Wahrscheinlichkeit berechnet, dass zwei Datensätze ähnlich sind.
  • Analysieren Sie die Übereinstimmungsergebnisse, die Aufschluss darüber geben, inwieweit es sich bei zwei oder mehr Datensätzen um Duplikate handelt.
  • Stimmen Sie die Abgleichsalgorithmen so ab, dass die Anzahl der falsch-positiven und -negativen Ergebnisse minimiert wird.

Wenn Sie mehr über den Datenabgleich erfahren möchten, lesen Sie diese Blogs:

4. Datendeduplizierung

Bei der Datendeduplizierung werden mehrere Datensätze, die zur selben Entität gehören, eliminiert. Dies ist eine der größten Herausforderungen beim Datenqualitätsmanagement. Dieses Verfahren hilft Ihnen, die richtigen Informationen zu erhalten und doppelte Datensätze zu vermeiden.

Der Prozess der Eliminierung von Duplikaten umfasst Folgendes:

  • Analysieren Sie die Dublettengruppen, um den goldenen Rekord zu identifizieren.
  • Markieren Sie die übrigen Datensätze als ihre Duplikate
  • Entfernen Sie die doppelten Datensätze

Wenn Sie mehr über die Datendeduplizierung erfahren möchten, lesen Sie diese Blogs:

5. Datenzusammenführung und Überlebensfähigkeit

Die Zusammenführung von Daten und die Überlebensfähigkeit ist der Prozess der Erstellung von Regeln, die doppelte Datensätze durch bedingte Auswahl und Überschreiben zusammenführen. Dies hilft Ihnen, Datenverluste zu vermeiden und ein Maximum an Informationen von Duplikaten zu bewahren.

Dieser Prozess umfasst:

  • Definieren Sie Regeln für die Stammsatzauswahl auf der Grundlage einer Spalte, die für eine bestimmte Operation in Frage kommt (z. B. der Stammsatz ist derjenige mit dem längsten Vornamen).
  • Definieren Sie Regeln zum Überschreiben von Daten aus doppelten Datensätzen in den Stammsatz (z. B. Überschreiben der kürzesten Postleitzahl aus doppelten Datensätzen in den Stammsatz).
  • Führen Sie die angelegten Regeln für die bedingte Stammsatzauswahl und das Überschreiben aus .
  • Passen Sie die Regelkonfiguration an, um den Verlust wichtiger Informationen zu verhindern.

Wenn Sie mehr über die Zusammenführung von Daten und die Überlebensfähigkeit erfahren möchten, lesen Sie diesen Blog: Eine Kurzanleitung zur Datenzusammenführung und -bereinigung.

Zusätzliche Prozesse

Zusätzlich zu den oben genannten Prozessen gibt es eine Reihe weiterer Prozesse, die ein notwendiger Bestandteil des Lebenszyklus des Datenqualitätsmanagements sind.

1. Datenintegration

Datenintegration ist der Prozess der Verbindung und Kombination von Daten aus verschiedenen Quellen – einschließlich Dateiformaten, relationalen Datenbanken, Cloud-Speichern und APIs – und deren Zusammenführung, um saubere und standardisierte Daten zu erhalten.

Sie ist ein wichtiger Bestandteil des Datenqualitätsmanagements, da Daten aus verschiedenen Quellen zusammengeführt werden müssen, bevor sie umgewandelt werden können, um eine einheitliche, standardisierte Ansicht zu erhalten.

Wenn Sie mehr über Datenintegration erfahren möchten, lesen Sie diesen Blog: Zusammenführung von Daten aus verschiedenen Quellen – Herausforderungen und Lösungen.

2. Daten exportieren oder laden

Beim Datenexport werden die bereinigten, standardisierten, abgeglichenen, deduplizierten und zusammengeführten Daten zurück in die Zielquelle geladen. Ebenso wie die Datenintegration ist auch der Datenexport/-laden ein wichtiger Bestandteil des Datenqualitätsmanagements, da die Daten in eine zentrale Quelle geladen werden müssen, die allen, die sie benötigen, zur Verfügung steht.

Bevor Sie die Daten in eine Zielquelle laden, müssen Sie einige wichtige Faktoren berücksichtigen. So ist beispielsweise zu prüfen, ob die Quelle über ältere Daten verfügt, die während des Ladevorgangs zu Konflikten führen könnten, und das Datenmodell der Quelle zu bewerten und sicherzustellen, dass die eingehenden Daten entsprechend gestaltet sind.

Wenn Sie mehr über Datenexport/-laden wissen möchten, lesen Sie diesen Blog: Ihr vollständiger Leitfaden für eine erfolgreiche Datenmigration.

Schlussfolgerung

Da haben Sie es – eine Liste der wichtigsten Datenqualitätsprozesse, die Sie vor Ihrer nächsten DQM-Initiative kennen sollten. Je nach dem aktuellen Stand der Datenqualität und der gewünschten Datensicht können Sie die erforderlichen Prozesse auswählen, sie in ein Datenqualitätsmanagement-Framework einbinden und in die Datenpipeline implementieren.

Ein Datenqualitätstool, das diese Datenqualitätsprozesse erleichtert, kann die Leistung und Produktivität Ihres Datenqualitätsteams exponentiell verbessern. DataMatch Enterprise ist ein solches Tool, das in der Lage ist, alle oben genannten Datenqualitätsprozesse in weniger als 12 Minuten für 2 Millionen Datensätze durchzuführen. Wenn Sie mehr wissen möchten, können Sie eine Testversion unserer Software herunterladen oder eine Demo mit unseren Experten buchen.

Außerdem habe ich unten einige gute Lektüren für Sie verlinkt, die Ihnen auf Ihrer DQM-Reise helfen werden.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.