Blog

Was bedeutet Datenqualität für Ihr Data Warehouse?

Schlechte Daten sind der Grund dafür, dass viele Data-Warehousing-Projekte keine Ergebnisse liefern; in der Tat bleibt die Datenqualität in Data-Warehouses für viele Unternehmen eine große Herausforderung. Die Hauptursache für schlechte Daten ist die Integration von Daten aus verschiedenen Systemen, die jedoch die Grundlage jedes Data-Warehousing-Projekts ist.

Was bedeutet Datenqualität in einem Data Warehouse?

Der Zweck des Data Warehouse besteht darin, eine einheitliche Schicht aufzubauen, die Daten aus allen relevanten Datenquellen im gesamten Unternehmen enthält. Das bedeutet, dass Sie Daten aus verschiedenen Systemen integrieren und für Analysen und Business Intelligence optimieren müssen. Das Data Warehouse generiert also keine eigenen Daten, und etwaige Probleme mit der Datenqualität entstehen entweder in den Quellsystemen oder durch die Art und Weise, wie die Daten in den verschiedenen Systemen interpretiert werden. Das Data-Warehousing-Team muss die Verantwortung dafür übernehmen, solche Probleme zu identifizieren, Wege zur Verbesserung der Datenqualität zu finden oder die Zustimmung des Unternehmens zu bestimmten Problemen einzuholen, damit diese als akzeptabel gelten. Der letzte Punkt mag verwirrend erscheinen, ist aber entscheidend für die Wahrung eines Gleichgewichts zwischen den Kosten für die Verbesserung der Datenqualität und den Ausgaben, die das Unternehmen bereit ist zu tätigen.

Wird die Datenqualität jedoch vernachlässigt, haben Data-Warehouse-Benutzer mit ungenauen, unvollständigen Daten zu kämpfen. Dies führt direkt dazu, dass Ihre Daten nicht repräsentativ sind und fehlerhafte Analysen durchgeführt werden. Dies können genau die Analysen sein, die die C-Suite für die Entscheidungsfindung verwendet, und wir alle wissen, wie schlecht
eine einzige falsche Entscheidung kann Unternehmen schaden
.

4 unmittelbare Möglichkeiten zur Verbesserung der Datenqualität in Ihrem Data Warehouse

Den Fehler zurückweisen: Sie müssen entscheiden, ob Sie in einem bestimmten Fall Genauigkeit oder Vollständigkeit wünschen. Wenn die Genauigkeit wichtiger ist, können Sie jeden gefundenen Datensatz mit diesem Fehler ablehnen – wenn die Behebung des Fehlers mehr Aufwand erfordert, als Ihr Unternehmen bereit ist, zu investieren.

Akzeptieren Sie den Fehler: Wenn Sie die Vollständigkeit über die Genauigkeit stellen, können Sie den Fehler ignorieren und Datensätze mit diesen Fehlern in Ihr Data Warehouse aufnehmen, wenn Sie die Fehler für tolerierbar halten, und beschließen, den Fehler zu beheben, wenn Ihr Team die richtigen Werte später finden kann.

Beheben Sie den Fehler: Wenn Ihr Team die richtigen Werte oder eine Formatänderung finden kann, die einen bestimmten Fehler mit vertretbarem Aufwand beheben würde, ist die Entscheidung klar.

Standardwert zuweisen: Wenn die Vollständigkeit sehr wichtig ist und der richtige Wert nicht gefunden werden kann, können Sie für jede Fehlerart einen Standardwert zuweisen, um fehlerhafte Daten zu ersetzen.

Unabhängig davon, welche Maßnahmen Sie ergreifen, ist es wichtig, dass Data Warehouse-Benutzer die Auswirkungen jeder Maßnahme verstehen, damit sie diese in ihre Analysen einbeziehen können.

Ansätze für das Datenqualitätsmanagement

Wir haben gesehen, dass die Datenqualität eine wichtige Voraussetzung für das Data Warehousing ist, aber in der Praxis ist die Behebung von Qualitätsproblemen im Data Warehouse ein komplexer Prozess. Dieser Abschnitt befasst sich mit Ansätzen zur Implementierung eines Datenqualitätsrahmens für Data Warehouses, insbesondere:

  • Verstehen der Quelldaten im Data Warehouse
  • Verständnis der Ursachen von Datenqualitätsfehlern
  • Zusammenführung von Daten aus verschiedenen Quellen zur Verbesserung der Qualität
  • Aufwertung der Daten, um ihren Nutzen zu erhöhen

Datenprofilierung: Verstehen von Quelldaten im Data Warehouse

Wenn man versucht, etwas zu verbessern, ist das Verstehen der erste natürliche Schritt. Der Prozess des Verstehens vorhandener Daten im Hinblick darauf, wie sie in ihrer endgültigen Form aussehen sollen, wird „Datenprofilierung“ genannt. Dazu gehört, dass wir uns tief in die Quelldaten einarbeiten und deren Inhalt, Struktur und Kardinalitäten verstehen. So ermitteln wir, wo Datenqualitätsprozesse angewendet werden müssen und welcher Ansatz zu wählen ist.

Allzu oft wurde die Erstellung von Datenprofilen in das Hinterzimmer der Extract-Transform-Load (ETL)-Prozesse verbannt und nur zur Überprüfung kleinerer Anomalien in den Daten herangezogen, sobald das Data Warehouse-Design abgeschlossen ist und die Produktionsdaten geliefert werden müssen. In Wirklichkeit sollte die Erstellung von Datenprofilen der nächste Schritt in Ihrem Data-Warehousing-Projekt sein, sobald Sie die Geschäftsanforderungen erfasst haben. In diesem Stadium hat die Kenntnis des Arbeitsaufwands, den die Quelldaten benötigen, bevor sie für Analysen verwendet werden können, einen großen Einfluss auf das Design und die für den Aufbau Ihres Data Warehouse benötigte Zeit.

Konzentrieren Sie sich bei der Profilerstellung Ihrer Daten während des Data-Warehouse-Designprozesses auf diese 4 Ergebnisse, um den größtmöglichen Nutzen aus dem Aufwand zu ziehen:

  • Die grundlegendste Leistung ist ein „no-go“ für das gesamte Projekt. Die Quelldaten, die Sie für den Aufbau Ihres Data Warehouse verwenden möchten, enthalten möglicherweise zu viele Fehler oder zu viele fehlende Informationen, so dass die Data-Warehousing-Initiative für Analysen überhaupt nicht brauchbar ist. Auch wenn dies als großer Misserfolg ausgelegt werden kann, ist es in Wirklichkeit ein äußerst wertvolles Ergebnis, denn jetzt kann Ihr Team seine Bemühungen auf andere Bereiche konzentrieren, anstatt Wochen und Monate mit der Entwicklung eines Projekts zu verbringen, nur um dann festzustellen, dass das Endergebnis ein äußerst mangelhaftes Berichtssystem ist, das für die Entscheidungsfindung unbrauchbar ist. Solche Überraschungen am Ende sind für Leiter von Business-Intelligence-Teams oft karriereverkürzend.
  • Das zweite Ergebnis ist eine Liste von Problemen, die bereits in den Quelldaten vorhanden sind und behoben werden müssen, bevor das Projekt fortgesetzt werden kann. Die Korrekturen sind eine wichtige externe Abhängigkeit und müssen gut verwaltet werden, um den Erfolg Ihres Data Warehouse zu gewährleisten. Man könnte meinen, dass Probleme später behoben werden können, wenn die Daten erst einmal in das Data Warehouse geschrieben sind, aber jedes Mal, wenn Sie Ihre operativen Systeme und das Data Warehouse synchronisieren, werden die Probleme wieder auftauchen.
  • Das dritte Ergebnis ist eine Liste von Datenqualitätsproblemen, die beim Extrahieren von Daten aus verschiedenen Quellen und beim Schreiben in das Data Warehouse auftreten. Ein tiefes Verständnis solcher Probleme hilft Ihnen, die für Ihr Geschäftsszenario am besten geeignete Datenumwandlungslogik und Methoden zur Behandlung von Ausnahmen zu entwickeln. Sie können auch die manuelle Verarbeitung bestimmen, die zur Behebung von Inkonsistenzen erforderlich ist, und diese in die Gesamtzeit für das Data-Warehousing-Projekt einrechnen.
  • Und schließlich sollten Sie sich auf bisher unerwartete Geschäftsregeln und Probleme bei Fremd- und Primärschlüsselbeziehungen und hierarchischen Strukturen konzentrieren. Sie müssen tiefer graben, um solche komplizierten Probleme zu identifizieren, aber wenn sie nicht überprüft werden, durchdringen sie das Data-Warehouse-Design und können später überproportional zunehmen.

Hier sind einige einfache Beispiele für Probleme, die mit Hilfe von Data Profiling aufgedeckt werden können:

Problem der Datenqualität Beispiel
Ungültiger Wert Gültiger Wert kann „1“ oder „2“ sein, der aktuelle Wert ist jedoch „3“.
Kulturelle Regelkonformität Datum = 1. Februar 2018 oder 1-1-18 oder 2-1-2018
Wert außerhalb des erforderlichen Bereichs Alter des Kunden = 204
Überprüfung Stadt und Bundesland stimmen nicht mit der Postleitzahl überein
Inkonsistenz des Formats Telefon = +135432524 oder (001)02325355

Datenqualität: Die Ursachen von Datenqualitätsfehlern verstehen

Sind Sie mit der Erstellung von Datenprofilen fertig und bereit, die Datenqualität zu verbessern? Nicht so schnell. Die Erstellung von Datenprofilen ist ein fortlaufender Prozess der Entdeckung. Schaffen Sie eine qualitätsorientierte Kultur in Ihrem Unternehmen, indem Sie Mitarbeiter belohnen, die Probleme in Daten finden und melden;
so wie es japanische Hersteller in der Automobilindustrie tun
.

Sobald Sie eine ungefähre Vorstellung von der Qualität Ihrer Daten haben, beginnen Sie mit der Umgestaltung von Prozessen, um die Datenqualität zu verbessern, während die Profilerstellung auf allen Ebenen des Unternehmens fortgesetzt wird, von den Dateneingabearbeitern an der Front bis hin zu den Führungskräften auf höchster Ebene, die Analysen verwenden. Änderungen am Quellsystem werden erforderlich sein, aber Sie müssen sie mit Fingerspitzengefühl angehen und die Umsetzung sowohl auf technischer als auch auf betrieblicher Ebene ausbalancieren, indem Sie sowohl das Unternehmen als auch die IT-Abteilung einbeziehen. Wenn Ihr Unternehmen nicht bereits über ein Master Data Management (MDM)-System verfügt, das Stammkopien aller Daten enthält, sollten Sie Ihr Data Warehouse letztendlich als MDM nutzen. Dies bedeutet, dass im Data Warehouse zahlreiche Datensätze im gesamten Unternehmen bereinigt, persistiert, angepasst und de-dupliziert werden müssen.

Der erste Schritt zur Verbesserung der Datenqualität nach der Erstellung des Profils ist eine Reihe von Tests, die an beliebigen Punkten des Datenintegrationsprozesses durchgeführt werden. Die Tests können sich beispielsweise auf eine Reihe von Geschäftsregeln oder mathematische Operationen zur Validierung Ihrer Daten beziehen. Auf diesen Teil werden wir später noch genauer eingehen.

Wenn ein Datensatz die Tests besteht, ist er sauber und kann zur Modellierung in das Produktions-Data-Warehouse verschoben werden. Wenn nicht, sollte Ihr Datenvalidierungsprozess dazu in der Lage sein:

  • Erstellen Sie einen Fehlerereignis-Datensatz, und
    • Entweder stoppen Sie den Prozess
    • oder fehlerhafte Daten aussetzen
    • Oder markieren Sie die Daten einfach

Tests zur Datenqualität

Von der Architektur her sind alle Datenqualitätstests ähnlich aufgebaut, unterscheiden sich aber im Umfang. Werfen wir einen Blick auf die Kategorien der Datenqualität, die von
Jack Olsen hat in seinem Buch „Data Quality: The Accuracy Dimension“
:

  • Tests auf Spaltenebene

Die Daten werden auf einer sehr granularen Ebene, innerhalb einer einzelnen Spalte, geprüft. Zu den Datenqualitätsregeln, die in dieser Phase angewandt werden können, gehört die Überprüfung, ob der Wert null ist, aus einer festen, endlichen Liste stammt, in einen bestimmten Bereich fällt, zu den in der Datenbank angegebenen Feldmustern passt, nicht in Ausschlusslisten enthalten ist und die grundlegende Rechtschreibprüfung besteht.

  • Prüfung auf Strukturebene

Bei dieser Art von Tests werden Datenbeziehungen über mehrere Spalten hinweg geprüft. Beispielsweise können spaltenübergreifende Felder geprüft werden, um eine Hierarchie zu verifizieren, wie bei einer Eins-zu-Viel-Beziehung. Auch Fremd- und Primärschlüsselbeziehungen werden überprüft. Jedes Feld einer bestimmten Spalte kann mit einer anderen Spalte verglichen werden, um z. B. Postanschriften zu überprüfen.

  • Testen von Geschäftsregeln

Komplexe Tests werden durchgeführt durch Erstellung von Geschäftsregeln. Bei dieser Art von Tests geht es beispielsweise darum, die Berechtigung eines Fluglinienkunden und seinen Status als Platin-Mitglied zu überprüfen, indem sichergestellt wird, dass seine Vielfliegermeilen mehr als 2 Millionen betragen und dass der Kunde seit mindestens 5 Jahren regelmäßig Mitglied ist, um sich für den Platin-Status zu qualifizieren.

Mit diesen Maßnahmen können wir anfangen zu handeln:

  • Ablehnung der Daten und Ausschluss aus dem Data Warehouse, wenn die Fehler zu schwerwiegend sind, um behoben zu werden
  • Daten akzeptieren, wenn die Fehler innerhalb tolerierbarer Grenzen liegen, nachdem sie dies den Geschäftsanwendern mitgeteilt haben
  • Korrigieren Sie die Daten, wenn der Fehler nach und nach behoben werden kann, z. B. wenn es mehrere Versionen desselben Kunden gibt, können Sie eine als Stammsatz festlegen.
  • Weisen Sie einen Standardwert wie „Nicht verfügbar“ zu, wenn Sie ein Feld nicht leer lassen können.

Die Maßnahmen, die Sie ergreifen müssen, hängen von der Art der Daten ab, mit denen Sie arbeiten, und fallen in der Regel in den Zuständigkeitsbereich der Geschäftsabteilung, die mit einer bestimmten Art von Datensatz arbeitet.

Beachten Sie, dass sich alle bisher erörterten Maßnahmen auf die Verbesserung der Qualität vorhandener Daten konzentrieren und nicht auf die Beseitigung der eigentlichen Ursache – die häufig an dem Punkt liegt, an dem die Daten von den Mitarbeitern an der Front in das Transaktionssystem eingegeben werden. Wenn Sie wirklich in die Verbesserung der Datenqualität investieren wollen, müssen Sie auch Regeln einführen, die die Qualität der eingegebenen Daten verbessern. So kann die Geschäftsleitung eines Finanzinstituts beispielsweise feststellen, dass die Sozialversicherungsnummern von Kunden häufig leer gelassen oder falsch eingegeben werden. Sie könnten sich dafür entscheiden, eine Regel zu implementieren, die den Feldwert in einem für Sozialversicherungsnummern spezifischen Format „erforderlich“ macht (AAA-GG-SSSS) wobei unsinnige Einträge wie 999-99-9999 nicht zugelassen werden.

Datenintegration: Zusammenführung von Daten aus verschiedenen Quellen zur Verbesserung der Qualität

Datenintegration als Methode ist etwas anderes, aber im Zusammenhang mit der Datenqualität bezieht sie sich auf die Integration von Daten über dieselbe Entität in verschiedenen Systemen. So können beispielsweise Informationen über ein bestimmtes Produkt in Ihrer US-Datenbank zu finden sein, aber dasselbe Produkt kann auch in anderen Ländern verkauft werden, was bedeutet, dass die Datensätze desselben Produkts je nach Region auf verschiedene Datenbanken verteilt sind. In jeder Region kann das Produkt unter einem anderen Namen, unter einem anderen Branding und mit anderen Mustern zur Beschreibung der Informationen in den Datenbankeinträgen verkauft werden.

Beim Aufbau Ihres Data Warehouse müssen Sie all diese unterschiedlichen Informationen aus mehreren Datenbanken in eine Master-Ansicht integrieren, die für die Berichterstattung verwendet werden kann. Schauen wir uns ein Beispiel an:

Ursprüngliche Daten Daten nach der Standardisierung
BMI Corp. BMI Gesellschaft
BMI Inc. BMI Incorporated
BMI Co. BMI Unternehmen
MR JOHN DEERE Herr John Deere
Herr Jonathan Deere Herr John Deere
Herr John DEERe Herr John Deere
#(222)0202020 ext120 222-020-2020 Durchwahl 120
2220202020 x120 222-020-2020 Durchwahl 120
Nationales Salz Nationale Salzgesellschaft
NSC Nationale Salzgesellschaft
N. Salz Nationale Salzgesellschaft
National S. Nationale Salzgesellschaft

In Anlehnung an unser ursprüngliches Kunden- und Produktbeispiel dreht sich die Integration von Daten auf diese Weise um zwei wichtige Prozesse:

  • Erkennen, ob in beiden Quellen dieselbe Kundeneinheit existiert
  • Kombination von Kundendaten, um eine konsolidierte Ansicht der Produkttabelle zu erhalten

Wenn Sie versuchen herauszufinden, ob zwei Entitäten miteinander verknüpft sind, können Sie mit einem gemeinsamen Feld beginnen, das wahrscheinlich in allen Systemen nach dem gleichen Muster vorhanden ist. Für die Kundeneinheit könnte dieses Feld die Steuernummer sein. Wenn für verschiedene Kundendatensätze dieselbe Steueridentifikationsnummer existiert, haben Sie soeben auf sehr effiziente Weise Gemeinsamkeiten festgestellt. In der Welt der Datenbanken haben wir jedoch selten das Glück, so einfache Lösungen zu haben.

Wenn Sie kein gemeinsames Feld finden können, müssen alle verfügbaren Produktinformationen über Tabellen hinweg abgeglichen werden, um festzustellen, ob dieselbe Kundenentität in zwei Systemen existiert. Moderne Datenqualitätsmanagement-Tools automatisieren diese Art von Arbeit, für die Fachleute früher stundenlang Zeilen und Tabellen durchforsten mussten, um Verknüpfungen zu finden. Gehen wir in diesem Beispiel weiter und sehen wir uns an, wie die Produktinformationen möglicherweise abgeglichen werden könnten.

Angenommen, Ihre US-Datenbank enthält Marke, Produktbeschreibung und Produktidentifikationsnummer alle in einem Feld, in unterschiedlichen Mustern. Im Vereinigten Königreich zum Beispiel speichert die Datenbank nur die Produktbeschreibung, aber auch das in unterschiedlichen Mustern, je nachdem, wer sie eingegeben hat. Eine
automatisiertes Datenqualitätswerkzeug
könnte Gemeinsamkeiten feststellen:

  • Parsing der Produktbeschreibung aus der US- und UK-Datenbank in einzelne Attribute und Sortierung nach Markennamen
  • Anwendung von Operationen auf Markennamen, um sie konsistent zu machen
  • Behebung von Unterschieden bei der Erfassung von Produktattributen
  • Verwenden Sie Fuzzy-Logik, um Produktattribute in beiden Datenbanken abzugleichen.
  • Berichte über übereinstimmende Produkte anzeigen und sie mit einer Kundenentität verknüpfen

Durch diese Art der Datenintegration haben Unternehmen jährlich viele Arbeitsstunden eingespart. Die beste Vorgehensweise beim Aufbau Ihres Data Warehouse ist eine umfassende, API-basierte Lösung für die Datenbereinigung und den Datenabgleich zwischen Quelle und Ziel.

Datenerweiterung: Hinzufügen von Werten zu Daten, um deren Nützlichkeit zu erhöhen

Inzwischen haben wir also ein Datenprofil erstellt, die Ursachen für die Datenqualität und die zu ergreifenden Maßnahmen untersucht und herausgefunden, wie die Integration von Daten aus verschiedenen Quellen zur Ermittlung von Gemeinsamkeiten einen Mehrwert schafft. Der natürliche letzte Schritt zur Vervollständigung des Datenqualitätszyklus besteht darin, nach Möglichkeiten zu suchen, die vorhandenen Entitätsdaten mit Daten aus externen Quellen außerhalb unserer eigenen Datenbanken zu ergänzen.

Bei Unternehmen wie dem Kunden ist diese Art der Datenerweiterung sehr üblich. Ihre Marketing-Automatisierungsanwendung könnte zum Beispiel wertvolle Erkenntnisse über Kunden enthalten, die zur Ergänzung von Datensätzen im Data Warehouse verwendet werden könnten. Der zusätzliche Einblick wird Ihrem Unternehmen helfen, seine Produktangebote besser auszurichten, da er tiefere Segmentierungsmöglichkeiten bietet.

Die nachstehende Tabelle enthält ein Beispiel für die Arten von Daten, die zur Ergänzung des Stammsatzes aus externen Quellen bezogen werden können:

Staat CL
Stadt Verschieben
ZIP 65464
ZIP+4 3234
Liefer-ID 3
Routen-ID 4
Adresse 6546 Hausweg
Hausnummer 6546
Straße Haus Weg
Straße Typ Weg
Landkreis-ID 635
Name des Bezirks Glühen
Bezirk 47
Satzart Persönlich
Breitengrad 35.4685
Längengrad 64.2334
Volkszählungsgruppe 35632165
Volkszählung Trakt 35

In den obigen Beispieldaten könnte ein Unternehmen möglicherweise die Adresse und die Postleitzahl sowie die PLZ+4 betrachten, um festzustellen, ob der Kunde in ein bestimmtes Wohnungssegment fällt. Zum Beispiel wurden Häuser in einer bestimmten Region, die ZIP+4-Codes haben, in den 80er Jahren gebaut und hatten eine Fläche von 2500 Quadratmetern. Diese Informationen könnten genutzt werden, um bestimmte Produktangebote gezielt an alle diese Kunden zu richten.

Das obige Beispiel ist zwar nur ein Beispiel, aber in der Realität ist die Datenerweiterung unter Verwendung des Adressfeldes zum Aufbau von Korrelationen üblich. Produktdaten sind ein weiteres Beispiel für Daten, die zu Erweiterungszwecken verwendet werden. Das Kaufverhalten, insbesondere bei der Erstellung von Vorhersagemodellen, kann anhand von Korrelationen zwischen Produktdaten und anderen angereicherten Daten ermittelt werden. Ein weiteres Paradebeispiel für die Datenerweiterung ist der Fall des Herstellers. Als Hersteller wissen Sie nur, was und wie viel Sie an Einzelhändler oder Großhändler verkaufen – nicht aber die tatsächliche Menge des an den Endkunden verkauften Produkts. Marktforschungsunternehmen wie Nielsen stellen solche Daten zur Verfügung, die die Hersteller kaufen, um ein besseres Verständnis für die Verkaufsmuster zu erhalten, damit sie ihr Produktangebot und ihre Strategie in Bezug auf Produktbestand und Lieferung verbessern können.

Obwohl die Datenerweiterung nicht direkt mit der Datenqualität verbunden ist, sollte sie der letzte natürliche Schritt sein, wenn Sie in Ihrem Unternehmen ein intensives Datenqualitätsmanagement aufbauen.

Schlussfolgerung: Aufbau zuverlässiger und präziser Analysefunktionen mit Datenqualität

Der Zweck jeder Data-Warehousing-Initiative ist die Bereitstellung von Business Intelligence, und dieser Zweck wird verfehlt, wenn nicht ausreichend über den Aufbau eines umfassenden Datenqualitätsrahmens nachgedacht wird, was zu ungenauen Analysen und damit zu schlechten Entscheidungen führt.

Verwenden Sie den hier beschriebenen Rahmen für die Datenqualität als Grundlage für den Aufbau Ihrer eigenen Prozesse. Sie sollten sich darauf konzentrieren, den Wert der vorhandenen Daten so weit wie möglich zu erhöhen, anstatt lediglich Fehler in den Produktionsdaten zu beheben und weiterzumachen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.