Blog

Die 12 häufigsten Datenqualitätsprobleme und deren Ursachen

Laut dem O’Reilly-Bericht “ The state of data quality 2020“ sind 56 % der Unternehmen mit mindestens vier verschiedenen Arten von Datenqualitätsproblemen konfrontiert, 71 % sogar mit mindestens drei verschiedenen Arten. Unternehmen verbringen viel Zeit und Ressourcen mit der Entwicklung von Datenqualitätsrahmen und der Behebung von Datenqualitätsproblemen. Um jedoch gute Ergebnisse zu erzielen, müssen sie die genaue Natur dieser Probleme verstehen und herausfinden, wie sie überhaupt in das System gelangen.

In diesem Blog befassen wir uns mit einigen allgemeinen Datenqualitätsproblemen, die in jedem Datensatz vorkommen, und zeigen auf, auf welche Weise sie sich in Ihrer Datenbank einschleichen können.

Fangen wir an.

Was ist ein Datenqualitätsproblem?

Ein Datenqualitätsproblem bezieht sich auf das Vorhandensein eines nicht tolerierbaren Mangels in einem Datensatz, der die Zuverlässigkeit und Vertrauenswürdigkeit dieser Daten beeinträchtigt.

Daten, die in unterschiedlichen Quellen gespeichert sind, enthalten zwangsläufig Probleme mit der Datenqualität. Diese Probleme können aus verschiedenen Gründen in das System eingeführt werden, z. B. durch menschliches Versagen, falsche Daten, veraltete Informationen oder mangelnde Datenkompetenz im Unternehmen. Da Daten die Grundlage für kritische Geschäftsfunktionen sind, können solche Probleme ernsthafte Risiken und Schäden für das Unternehmen verursachen.

Die Notwendigkeit, hochwertige Daten in allen Geschäftsprozessen zu nutzen, liegt auf der Hand. Führungskräfte investieren in die Einstellung von Datenqualitätsteams, weil sie die Mitarbeiter für die Erreichung und Aufrechterhaltung der Datenqualität verantwortlich machen wollen. Darüber hinaus werden komplexe Rahmenwerke für die Datenqualität entwickelt und fortschrittliche Technologien eingesetzt , um ein schnelles und genaues Datenqualitätsmanagement zu gewährleisten. All diese Bemühungen werden in der Hoffnung unternommen, den Traum von sauberen Daten wahr werden zu lassen.

All dies ist jedoch nur möglich, wenn wir verstehen, was die Daten überhaupt verunreinigt und woher es genau kommt.

Die 12 größten Probleme mit der Datenqualität in Unternehmen

Ich habe vor kurzem einige Kundennotizen durchgesehen und eine Liste der 12 wichtigsten Datenqualitätsprobleme zusammengestellt, die in den Organisationsdaten eines Unternehmens häufig vorkommen. Werfen wir einen Blick auf diese Liste.

Problem Nr. 01: Fehlende Eindeutigkeit der Datensätze

Ein durchschnittliches Unternehmen mit 200-500 Mitarbeitern nutzt heutzutage etwa 123 SaaS-Anwendungen . Die große Zahl und Vielfalt der Anwendungen, die zur Erfassung, Verwaltung, Speicherung und Nutzung von Daten eingesetzt werden, ist der Hauptgrund für eine schlechte Datenqualität. Und das häufigste Problem, das in solchen Situationen auftritt, ist, dass Sie am Ende mehrere Datensätze für dieselbe Entität speichern.

So werden beispielsweise alle Interaktionen, die ein Kunde während seiner Kaufentscheidung mit Ihrer Marke hat, irgendwo in einer Datenbank gespeichert. Diese Aufzeichnungen können von Websites, Landing-Page-Formularen, Werbung in sozialen Medien, Verkaufsaufzeichnungen, Rechnungsaufzeichnungen, Marketingaufzeichnungen, Aufzeichnungen über Kaufpunkte und anderen Bereichen stammen. Wenn es keine systematische Methode gibt, um Kundenidentitäten zu identifizieren und neue Informationen mit bestehenden zusammenzuführen, kann es zu Duplikaten in Ihren Datensätzen kommen.

Und um Duplikate zu beseitigen, müssen Sie fortgeschrittene Algorithmen zum Datenabgleich ausführen, die zwei oder mehr Datensätze vergleichen und die Wahrscheinlichkeit berechnen, dass sie zur selben Entität gehören.

How to build a unified, 360 customer view

Download this whitepaper to learn about why it’s important to consolidate your data to get a 360 view.

Download

Problem Nr. 02: Fehlen von Beziehungseinschränkungen

Ein Datensatz verweist oft auf mehrere Datenbestände. Wenn jedoch keine Beziehung zwischen zwei oder mehreren unterschiedlichen Datenbeständen definiert und durchgesetzt wird, können Sie am Ende eine Menge falscher und unvollständiger Informationen erhalten.

Betrachten Sie dieses Szenario als Beispiel: Ihr Kundenportal enthält Datensätze für Neukunden, die Sie in diesem Jahr gewonnen haben, sowie für Bestandskunden, die im letzten Jahr ein Upgrade vorgenommen haben. Abgesehen von den grundlegenden Kundeninformationen gibt es definitiv einige Kundenfelder, die nur für ein neues Unternehmen gelten und einige, die nur für einen neuen Kunden funktionieren. Sie können beide Szenarien mit demselben, verallgemeinerten Datenmodell abwickeln, aber dies kann zu einer Vielzahl von Datenqualitätsproblemen führen, z. B. zum Fehlen notwendiger Informationen sowie zu mehrdeutigen oder falschen Informationen in Kundendatensätzen.

Um solche Szenarien zu bewältigen, sollten Sie immer spezifische Datenmodelle erstellen und Beziehungen zwischen ihnen erzwingen. Indem Sie eine Eltern-Kind-Beziehung (Supertyp/Subtyp) zwischen Entitäten erzwingen, erleichtern Sie denjenigen, die mit diesen Informationen zu tun haben, die Datenerfassung, -aktualisierung und das Verständnis. Siehe das folgende ERD-Diagramm als Beispiel. Die grundlegenden Kundenfelder werden von den untergeordneten Subtypen, d. h. Neukunden und Bestandskunden, getrennt gehalten.

Problem Nr. 03: Fehlende referenzielle Integrität

Referentielle Integrität bedeutet, dass die Datensätze ihrem referenzierenden Gegenstück entsprechen. Um die Probleme zu verstehen, die durch einen Mangel an referenzieller Integrität entstehen, betrachten wir das Beispiel eines Einzelhandelsunternehmens. Ein Einzelhandelsunternehmen speichert seine Verkaufsdaten wahrscheinlich in einer Verkaufstabelle , und in jedem Datensatz ist vermerkt, welches Produkt verkauft wurde, als der Verkauf stattfand. Daher erwarten Sie wahrscheinlich, dass Sie in der Verkaufstabelle sowohl Verkaufs- als auch Produkt-IDs finden. Wenn jedoch ein Verkaufsdatensatz auf Produkt-IDs verweist, die in der Produkttabelle nicht vorhanden sind, ist es offensichtlich, dass Ihre Datensätze keine referenzielle Integrität aufweisen.

Diese Probleme können dazu führen, dass Ihre Teams falsche Berichte erstellen, falsche Produkte ausliefern oder Produkte an Kunden liefern, die es gar nicht gibt, und so weiter.

Problem Nr. 04: Fehlende Kardinalität der Beziehung

Die Beziehungskardinalität bezieht sich auf die maximale Anzahl von Beziehungen, die zwei Entitäten miteinander haben können. Normalerweise können verschiedene Arten von Beziehungen zwischen Datenobjekten erstellt werden, je nachdem, wie die Geschäftsvorgänge in einem Unternehmen ablaufen dürfen.

Anhand der folgenden Beispiele können Sie die Kardinalität zwischen verschiedenen Datenobjekten wie Kunde, Kauf, Standort und Produkt verstehen:

  • Ein Kunde kann immer nur einen Standort haben
  • Ein Kunde kann viele Einkäufe tätigen
  • Viele Kunden können an einem Standort sein
  • Viele Kunden können viele Produkte kaufen

Wenn die Kardinalitätsbeschränkungen nicht genau definiert sind, kann dies zu einer Reihe von Problemen mit der Datenqualität in Ihrem Datensatz führen.

Problem Nr. 05: Fehlende Eindeutigkeit und Bedeutung der Attribute

Häufig treten Probleme im Zusammenhang mit Datensatzattributen oder Spalten auf. Häufig sind Datenmodelle nicht explizit definiert, so dass die daraus resultierenden Informationen als unbrauchbar angesehen werden. Häufig auftretende Probleme sind:

  • Es sind mehrere Spalten mit demselben Namen vorhanden, die unterschiedliche Informationen für einen Datensatz enthalten.
  • Es sind mehrere Spalten mit unterschiedlichen Namen vorhanden, die technisch gesehen dasselbe bedeuten und daher dieselben Informationen speichern.
  • Spaltentitel sind mehrdeutig und verwirren den Dateneingabeoperator, was in der Spalte zu speichern ist.
  • Einige Spalten bleiben immer leer, entweder weil sie veraltet sind oder weil es keine Quelle gibt, um solche Informationen zu erhalten.
  • Einige Spalten werden nie verwendet und daher unnötigerweise gespeichert.

All diese Szenarien zeigen, wie Attribute innerhalb eines Datensatzes schlecht verwaltet werden und die Zahl der Datenqualitätsprobleme steigt.

Problem Nr. 06: Fehlende Validierungsbeschränkungen

Die meisten Datenqualitätsprobleme sind auf fehlende Validierungsvorgaben zurückzuführen. Validierungsbeschränkungen stellen sicher, dass die Datenwerte gültig und angemessen sind und dass sie gemäß den definierten Anforderungen standardisiert und formatiert sind. Beispielsweise würde das Fehlen von Validierungseinschränkungsprüfungen für den Kundennamen zu folgenden Fehlern führen:

  • Zusätzliche Leerzeichen im Namen (entweder führende, nachgestellte oder doppelte Leerzeichen dazwischen),
  • Verwendung von unangemessenen Symbolen und Zeichen,
  • Die Länge des Namens ist zu lang,
  • Einbuchstabige Zweitnamen werden nicht großgeschrieben oder enden nicht mit einem Punkt,
  • Alle Buchstaben des Vor-, Mittel- und Nachnamens werden großgeschrieben, nicht nur der erste Buchstabe.

Außerdem können einige Felder falsche Abkürzungen und Codes oder andere Werte enthalten, die nicht zum Attributbereich gehören. Wenn diese Einschränkungen nicht in Ihren Datenmodellen definiert und an den Dateneingabepunkten erzwungen werden, werden Sie eine Menge Validierungsfehler in den kritischsten und grundlegendsten Feldern Ihres Datensatzes, wie z. B. dem Namen eines Kunden, erhalten.

Problem Nr. 07: Mangel an genauen Formeln und Berechnungen

Viele Felder in einem Datensatz werden von anderen Feldern abgeleitet oder berechnet. Die Formeln werden also entworfen, implementiert und automatisch ausgeführt, sobald neue Daten in die entsprechenden Felder eingegeben oder aktualisiert werden. Jeder Fehler in den Formeln oder Berechnungen kann dazu führen, dass Sie in der gesamten Spalte des Datensatzes falsche Informationen erhalten. Dadurch wird das Feld für den beabsichtigten Verwendungszweck ungültig.

Beispiele für Felder, die aus anderen Feldern berechnet werden, sind das aus Geburtstagen berechnete Alter, der aus der Anzahl der gekauften Produkte berechnete anwendbare Rabatt oder jede andere Prozentberechnung.

Problem Nr. 08: Mangelnde Konsistenz zwischen den Quellen

Eine der häufigsten Herausforderungen im Zusammenhang mit Daten ist die Beibehaltung einer einheitlichen Definition für ein und dasselbe „Ding“ über alle Knotenpunkte oder Datenquellen hinweg. Wenn ein Unternehmen zum Beispiel ein CRM und eine separate Rechnungsanwendung verwendet, landet der Datensatz eines Kunden in den Datenbanken beider Anwendungen. Die Aufgabe, eine konsistente – oder einfach dieselbe – Ansicht der Kundeninformationen über alle Datenbanken hinweg über einen längeren Zeitraum hinweg zu erhalten, ist schwierig.

Ein Mangel an Konsistenz kann die Berichterstattung über alle Funktionen und Abläufe Ihres Unternehmens durcheinander bringen. Konsistenz bezieht sich nicht nur auf die Bedeutung der Datenwerte, sondern auch auf ihre Darstellung; wenn beispielsweise Werte nicht anwendbar oder nicht verfügbar sind, müssen einheitliche Begriffe verwendet werden, um die Nichtverfügbarkeit von Daten in allen Quellen darzustellen.

Problem Nr. 09: Unvollständigkeit der Daten

Die Vollständigkeit der Daten bezieht sich darauf, dass die erforderlichen Felder in Ihrem Datensatz vorhanden sind. Die Vollständigkeit eines Datensatzes kann vertikal (auf Attributsebene) oder horizontal (auf Datensatzebene) berechnet werden. Normalerweise werden Felder als obligatorisch/erforderlich gekennzeichnet, um die Vollständigkeit eines Datensatzes zu gewährleisten, da nicht alle Felder erforderlich sind.

Dieses Datenqualitätsproblem finden Sie in der Regel in Ihrem Datensatz, in dem eine große Anzahl von Feldern für eine große Anzahl von Datensätzen leer gelassen wurde. Aber Leere bedeutet nicht unbedingt Unvollständigkeit. Die Vollständigkeit eines Datensatzes kann nur dann genau gemessen werden, wenn jedes Feld eines Datenmodells zunächst wie folgt kategorisiert wird:

  • Ist das Feld erforderlich? Das heißt, es kann nicht leer gelassen werden, z. B. die nationale ID eines Kunden.
  • Ist das Feld fakultativ? Das bedeutet, dass es nicht unbedingt ausgefüllt werden muss, z. B. das Feld Hobbys für einen Kunden.
  • Ist das Feld in bestimmten Fällen nicht anwendbar? Das bedeutet, dass er im Kontext des Datensatzes irrelevant wird und leer gelassen werden sollte, z. B. „Name des Ehepartners“ für einen nicht verheirateten Kunden.

Problem Nr. 10: Mangelnde Aktualität der Daten

Daten altern sehr schnell – sei es, dass ein Kunde seine Wohnanschrift oder seine E-Mail-Adresse geändert hat oder dass sich sein Nachname aufgrund seines Familienstandes geändert hat. Solche Änderungen können sich auf die Aktualität Ihres Datensatzes auswirken und dazu führen, dass Sie über Wochen oder Monate alte Daten verfügen, was dazu führt, dass Sie wichtige Entscheidungen auf der Grundlage veralteter Informationen treffen müssen. Um die Aktualität Ihres Datensatzes zu gewährleisten, können Sie Erinnerungen zur Datenaktualisierung einrichten oder Altersgrenzen für ein Attribut festlegen, um sicherzustellen, dass alle Werte in einer bestimmten Zeit überprüft und aktualisiert werden.

Problem Nr. 11: Mangelnde Datenkompetenz

Trotz aller Bemühungen um den Schutz von Daten und deren Qualität in verschiedenen Datenbeständen kann ein Mangel an Datenkompetenz in einem Unternehmen Ihren Daten großen Schaden zufügen. Die Mitarbeiter speichern oft falsche Informationen, da sie nicht verstehen, was bestimmte Attribute bedeuten. Außerdem sind sie sich der Folgen ihrer Handlungen nicht bewusst, z. B. welche Auswirkungen die Aktualisierung von Daten in einem bestimmten System oder für einen bestimmten Datensatz hat.

Solche Diskrepanzen können nur durch die Erstellung und Gestaltung von Plänen und Kursen zur Datenkompetenz beseitigt werden, die die Teams in die Unternehmensdaten einführen und erklären:

  • Was es enthält,
  • Was die einzelnen Datenattribute bedeuten,
  • Welches sind die Akzeptanzkriterien für seine Qualität?
  • Was ist der falsche und was der richtige Weg für die Eingabe/Manipulation von Daten?
  • Welche Daten sind zu verwenden, um ein bestimmtes Ergebnis zu erzielen?

Problem Nr. 12: Tippfehler und andere menschliche Fehler

Tipp- oder Rechtschreibfehler sind eine der häufigsten Ursachen für Datenqualitätsfehler. Es ist bekannt, dass Menschen bei der Eingabe von 10.000 Daten mindestens 400 Fehler machen. Dies zeigt, dass selbst bei Vorhandensein von eindeutigen Bezeichnern, Validierungsprüfungen und Integritätsbeschränkungen die Möglichkeit besteht, dass menschliches Versagen die Datenqualität beeinträchtigt.

Verwendung von Self-Service-Tools für die Datenqualität

Wir haben gerade die verschiedenen Arten von Datenqualitätsproblemen in einem Datensatz durchgesprochen. Teams, die sich bemühen, im gesamten Unternehmen ein akzeptables Niveau der Datenqualität aufrechtzuerhalten, benötigen die richtigen Werkzeuge. An dieser Stelle kann ein Datenqualitätsmanagement-Tool sehr nützlich sein. Ein All-in-One-Tool zur Selbstbedienung, das Datenprofile erstellt, verschiedene Datenbereinigungsaktivitäten durchführt, Duplikate abgleicht und eine einzige Quelle der Wahrheit ausgibt.

DataMatch Enterprise ist ein solches Tool, das es den Datenteams erleichtert, Datenqualitätsfehler schnell und präzise zu beheben und sich auf wichtigere Aufgaben konzentrieren zu können. Datenqualitätsteams können innerhalb weniger Minuten Profile erstellen, bereinigen, abgleichen, zusammenführen und Millionen von Datensätzen bereinigen und so viel Zeit und Mühe sparen, die normalerweise für solche Aufgaben verschwendet wird.

Wenn Sie mehr darüber erfahren möchten, wie wir Ihnen helfen können, laden Sie noch heute eine kostenlose Testversion herunter oder buchen Sie eine Demo mit unseren Experten.

Getting Started with DataMatch Enterprise

Download this guide to find out the vast library of features that DME offers and how you can achieve optimal results and get the most out of your data with DataMatch Enterprise.

Download
In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.