Blog

Datenbereinigung im Data Warehouse: Der Code-freie, automatisierte Ansatz zur Pflege Ihrer Single Source of Truth

Daten sind überall, und das Gesamtvolumen wird voraussichtlich
bis 2020 mehr als 44 Billionen GBs
aber selten ist sie nützlich. Nur 27% der Unternehmen mit Datenanalyse-Initiativen berichten von einem nennenswerten Erfolg, während nur 8 % ihre Bemühungen als „sehr erfolgreich“ bezeichnen. Diese Zahlen sind nicht deshalb so niedrig, weil die Unternehmen nicht über die erforderlichen Daten verfügen, sondern weil sie nicht über qualitativ hochwertige Daten verfügen, d. h. die Daten, die sie haben, sind im Grunde genommen nutzlos.

Die Verfügbarkeit reicht nicht aus, man muss die Daten auch nutzbar machen.

Beim Aufbau Ihres Data Warehouse ist es entscheidend, dass Sie über saubere Daten verfügen, da Sie sonst Gefahr laufen, die
Garbage in, Garbage out
Phänomen. Doch was genau beinhaltet die Datenbereinigung, und ist sie für Ihr spezifisches Data Warehouse-Design wirklich erforderlich?

Wenn Sie Daten aus einer einzigen Quelle integrieren, kann es vorkommen, dass Quelldatensätze fehlende Informationen, Rechtschreibfehler von der ursprünglichen Dateneingabe, ungültige Daten usw. enthalten. Diese Probleme sind in Datenbanken allgegenwärtig und werden häufig auf die analytische Berichterstattung übertragen – es sei denn, Sie implementieren zuvor Datenbereinigungs- und Daten-Scrubbing-Techniken. Das Problem wird noch größer, wenn Sie mit unterschiedlichen Datenquellen zu tun haben, um zentralisierte Datenspeicher wie ein Data Warehouse, ein globales Informationssystem oder ein föderiertes System von Betriebsdatenbanken aufzubauen.

Wenn Sie mit einer einzigen Quelle arbeiten, müssen Sie mit Ungenauigkeiten in den Daten rechnen. Bei unterschiedlichen Quellen müssen Sie sich auch mit Unterschieden bei der Speicherung und Strukturierung der Daten sowie mit Problemen der Datenredundanz bei den verschiedenen Darstellungen der Daten in den einzelnen Quellen auseinandersetzen.

Betrachten wir ein Beispiel. Angenommen, Sie haben eine Entität mit dem Namen „John Smith“, deren Stadtfeld in einer Datenbank mit „London“ gefüllt ist. Eine andere Datenbank könnte eine zusätzliche Spalte für „Land“ haben, und wenn die beiden Datenbanken zusammengeführt werden, haben Sie keine einfache Möglichkeit, das Feld „Stadt“ für den ehemaligen Datensatz „John Smith“ zu füllen. Immerhin gibt es etwa 12 verschiedene Londons auf der Welt.

Dies ist nur ein Beispiel; es könnte unzählige Probleme geben, wie z. B. verkettete Namen in einer Datenbank und getrennte Spalten für Vor- und Nachname in einer anderen, oder getrennte Spalten für Hausnummer und Straßenname, während eine andere Datenbank eine einzige Adressspalte hat.

Eine Möglichkeit, die Datenqualität zu verbessern, besteht darin, Fehler manuell zu überprüfen und zu beheben, aber das wird schnell unpraktisch, wenn man es mit großen Datenmengen zu tun hat. Der andere Weg ist die Verwendung von Datenqualitätssoftware, die speziell für die schnellste und genaueste Datenbereinigung für Ihr Data Warehouse.

Datenbereinigung im Data Warehouse

Ihr Data Warehouse muss über konsistente, genaue, deduplizierte Daten verfügen, um nachgelagerte Analyseanwendungen und andere Systeme im gesamten Unternehmen zu versorgen. In einem typischen Szenario benötigen Sie einen separaten Staging-Bereich, in den Sie Daten aus der Quelle importieren und dann umwandeln und anderweitig Ihre Daten für die Standardisierung und Bereinigung aufbereiten. Moderne Datenbereinigungssoftware unterstützt die In-Memory-Verarbeitung, bei der die Quelldaten in den temporären Speicher und nicht in eine physische Datenbank importiert werden. Sie können Ihre Bereinigungs- und Deduplizierungskonfigurationen im temporären Speicher testen und dann wieder exportieren, wenn Sie mit den Ergebnissen zufrieden sind.

Wenn Sie sich für einen Datenbereinigungsansatz für Ihr Data Warehouse entscheiden, stellen Sie sicher, dass die gewählte Methode dies kann:

  • Behandlung von Inkonsistenzen und Fehlern sowohl bei der Integration von Daten aus einer einzigen Quelle als auch bei der Integration mehrerer Quellen
  • Minimierung der manuellen Kodierung und des manuellen Aufwands für die Überprüfung der Daten zur Validierung der Qualitäty
  • für andere als die ursprünglich definierten Quellen verwendet werden, so dass der Ansatz auch dann noch gilt, wenn Sie später weitere Quellen in Ihr Data Warehouse aufnehmen müssen
  • Arbeit mit schemabasierten Datenumwandlungen, die auf Metadaten beruhen
  • Identifizieren Sie verknüpfte Datensätze
    über alle Quellen hinweg zu Zwecken der Deduplizierung und Anreicherung
  • Bereitstellung von Workflow-Orchestrierungsfunktionen zur Unterstützung und Schaffung einer soliden Grundlage für Datenqualitätsregeln, die in großem Umfang zur Bereinigung von Unternehmensdaten angewendet werden.

Datenbereinigung in der Single Source Integration

Wie bereits erwähnt, lassen sich die Probleme bei der Datenbereinigung im Data Warehouse in zwei große Datenintegrationskategorien unterteilen, da jede Kategorie ihre eigenen Herausforderungen mit sich bringt:

  • Integration von Daten aus einer einzigen Quelle
  • Integration von Daten aus mehreren Quellen

Für beide Kategorien werden wir die Probleme der Datenbereinigung auf Schema- und Instanzebene weiter erörtern. Schemabezogene Probleme beziehen sich auf solche, bei denen Daten durch die Verbesserung des Schemadesigns bereinigt werden können, während instanzbezogene Probleme sich auf Fehler auf einer niedrigeren Ebene, im Inhalt von Tabellenfeldern, beziehen.

Einer der wichtigsten Faktoren zur Gewährleistung einer höheren Datenqualität ist die Verfügbarkeit von Einschränkungen in Ihren Datenschemata. Wenn Sie im System Einschränkungen zur Kontrolle der zulässigen Daten eingerichtet haben, haben Sie den Aufwand für die Datenbereinigung erheblich reduziert. Je weniger Beschränkungen Ihr Schema hat, desto größer ist der Aufwand für die Datenbereinigung. Ein sehr effektiver Weg dazu ist die Integration von Datenqualitätssoftware in Ihre Systeme und Anwendungen und die Vordefinition von Geschäftsregeln auf der Grundlage der Einschränkungen, die Sie umsetzen möchten.

Die API-basierte Integration von Data Ladder stellt sicher, dass alle Eingabedaten in Echtzeit mit Ihren Geschäftsregeln abgeglichen werden, unabhängig davon, ob die Daten in Ihr CRM eingegeben oder zuvor in eine SQL-Datenbank geladen wurden.

Im Folgenden finden Sie einige Beispiele, die Ihnen helfen werden, schemabezogene Datenqualitätsprobleme zu verstehen:

Daten:

Geburtsdatum = 20.15.90

Problem:

Nicht zulässige Werte

Der Grund:

Die eingegebenen Werte für das Geburtsdatum liegen außerhalb des zulässigen Bereichs, da es keinen 15.th Monat sein kann.

Andere Beispiele sind Probleme mit der referentiellen Integrität, wenn sich ein Feld auf eine bestimmte Abteilungs-ID bezieht, diese aber nicht im System definiert wurde. Oder Probleme mit der Eindeutigkeit, wenn die Sozialversicherungsnummer von zwei Arbeitnehmern als dieselbe aufgeführt ist.

Andererseits können instanzbezogene Probleme aus Rechtschreibfehlern (statename = Coloradoo), bei der Dateneingabe irrtümlich verwendeten Abkürzungen (profession = DB prog) und falschen Referenzen (employee = [name= „John“, deptID= „22“], wobei die tatsächliche deptID dieses Mitarbeiters 12 war) resultieren.

Wenn diese Probleme nicht behoben werden, werden Abfragen, die diese Daten verwenden, falsche Informationen liefern, was dazu führen kann, dass Geschäftsentscheidungen auf falschen Daten beruhen.

Datenbereinigung bei der Integration mehrerer Quellen

Die Probleme mit der Datenqualität nehmen natürlich um ein Vielfaches zu, wenn Sie Daten aus mehreren Quellen in Ihr Data Warehouse integrieren. Zusätzlich zu den allgemeinen Problemen wie Rechtschreibfehlern und falschen Verweisen bei der Dateneingabe, müssen Sie Daten über mehrere Darstellungen hinweg abzugleichen und „Master“-Datensätze erstellen, damit eure Vision der „einzigen Quelle der Wahrheit“ Wirklichkeit wird. Sie müssen sich auch mit Datenredundanzproblemen auseinandersetzen, wenn sich Daten in verschiedenen Systemen überschneiden.

Beim Schemadesign müssen Sie sich hauptsächlich mit Struktur- und Namenskonflikten in verschiedenen Quellsystemen auseinandersetzen. Zu den strukturellen Konflikten können unterschiedliche Datentypen, Integritätsbeschränkungen, Komponentenstrukturen usw. gehören. In Bezug auf instanzbezogene Probleme werden mehrere Quellen wahrscheinlich bedeuten, dass dasselbe Attribut in verschiedenen Systemen unterschiedlich dargestellt wird. Ein Beispiel: MaritalStatus könnte in einem System „Verheiratet“ oder „Ledig“ lauten, während in einem anderen System ein Datensatz für RelationshipStatus mit ganz anderen Attributen vorhanden sein könnte – der aber auch den Familienstand anzeigt.

Vervielfältigung von Daten ist ein weiterer wichtiger Punkt, insbesondere wenn Sie mehrere Datensätze in verschiedenen Systemen haben, die auf dieselbe Entität verweisen. Unternehmen verfügen über Millionen von Datensätzen zu Kunden, Lieferanten und Mitarbeitern, oft in verschiedenen Datenbanken. In diesen Datenbanken gibt es viele doppelte Datensätze, was zu einer verminderten betrieblichen Effizienz und zu fehlenden Informationen führt. Mehrere Datensätze bedeuten, dass Details desselben Kunden/derselben Person auf mehrere Datensätze verteilt sind. Löschen von Duplikaten und Zusammenführen der Datensätze
erhöht die Effizienz der Datenbank
und schafft gleichzeitig eine einzige Quelle der Wahrheit.

Kundentabelle (ABC-Quellsystem):

CID Name Straße Stadt Sex
11 Kristen Smith 2 Hurley Pl South Fork, MN 48503 0
24 Christian Smith Hurley Straße 2 S-Gabel MN 1

Mandanten-Tabelle (XYZ-Quellsystem):

Cno Nachname Vorname Geschlecht Adresse Telefon/Fax
11 Smith Christoph M 23 Harley St, Chicago IL, 60633-2394 333-222-6542 / 333-222-6599
493 Smith Kris L. F 2 Hurley Place, South Fork MN, 48503-5998 444-555-6666

Tabelle „Kunden“ (integriert nach der Datenbereinigung für das Zieldatenlager):

Nein LName FName Geschlecht Straße Stadt Staat ZIP Telefon Fax CID Cno
1 Smith Kristen L. F 2 Hurley Place Südgabel MN 48503-5998 444-555-6666 11 493
2 Smith Christian M 2 Hurley Place Südgabel MN 48503-5998 24
3 Smith Christoph M 23 Harley Straße Chicago IL 60633-2394 333-222-6542 333-222-6599 11

Bei der Integration von Daten in Ihr Data Warehouse stehen zwei wichtige Prozesse im Mittelpunkt:

  • Erkennen, ob die gleiche Entität in beiden Quellen existiert
  • Kombinieren von Entitätsdaten, um eine konsolidierte Sicht auf eine Entitätstabelle zu erhalten

Um eine saubere, vollständige Ansicht zu erhalten, müssen Sie zusammengehörige Daten zusammenführen und gleichzeitig redundante Duplikate entfernen, wie im obigen Beispiel gezeigt. Das Verfahren ist allgemein bekannt als
zusammenführen bereinigen
‚ – der Prozess der Kombination von Daten aus zwei oder mehr Quellen, der Identifizierung und/oder Kombination von Duplikaten und der Eliminierung (Bereinigung) unerwünschter Datensätze.

Um das Potenzial Ihres Data Warehouse voll auszuschöpfen, ist die Bereinigung von Zusammenführungen von entscheidender Bedeutung. Daten können analysiert werden, um Erkenntnisse zu gewinnen, die Effizienz zu steigern und Probleme zu erkennen, wenn Sie Ihr Data Warehouse als „Single Source of Truth“ für das gesamte Unternehmen konzipieren. Mit der Option Zusammenführen/Bereinigen können Sie festlegen, wie die Daten zusammengeführt und bereinigt werden sollen. Wählen Sie die für Ihre Zwecke am besten geeigneten Regeln für das Fortbestehen von Daten aus, und unser Bereinigungstool wird Millionen von Datensätzen durchgehen und sie zu vollständigen goldenen Datensätzen zusammenfassen. Ihre ursprünglichen Daten bleiben in ihrer ursprünglichen Form erhalten, und es wird ein neuer Datensatz mit allen Informationen erstellt.

Bauen Sie zuverlässige und genaue Analysefunktionen in Ihr Data Warehouse ein

Die Datenqualitätssoftware von Data Ladder wurde als die schnellste und genaueste Plattform für die Verknüpfung von Datensätzen in mehreren unabhängigen Studien bewertet. Nutzen Sie unsere leistungsstarken, firmeneigenen Abgleichsfunktionen, um Duplikate zu erkennen und zu bereinigen oder Daten zusammenzuführen und zu überleben, um eine ‚einzige Quelle der Wahrheit‚ unter Verwendung erstklassiger Fuzzy-Matching-, intelligenter Parsing- und Mustererkennungstechniken.

„Mir gefällt an DataMatch, wie einfach und flexibel es zu bedienen ist. Ich kann Daten aus praktisch jeder Datenquelle verwenden, einschließlich ODBC-Verbindungen, CSV-Dateien und JSON-Dateien. Es leistet großartige Arbeit bei der Datenbereinigung und macht den Abgleichsprozess noch leistungsfähiger.“

Nick Corder, Plattform-Architekt

Die unübertroffene Geschwindigkeit, Genauigkeit und die niedrigen Kosten von DataMatch Enterprise machen den Abgleich und die Verknüpfung von Datensätzen aus all Ihren Datenbeständen zu einem Kinderspiel, dank der großen Vielfalt an Integrationen, die DataMatch Enterprise standardmäßig bietet.

Verbessern Sie Ihre Bereinigungsstrategie im Data Warehouse, indem Sie unsere native Integration mit den zahlreichen Datenquellen und die erweiterten Funktionen zur Datensatzverknüpfung nutzen, um Datenübereinstimmungen in allen unterstützten Repositories zu finden, unabhängig davon, ob Ihre Daten in Social-Media-Plattformen und Legacy-Systemen oder in herkömmlichen Datenbanken und Flat Files und sogar in Big Data Lakes gespeichert sind. Data Ladder lässt sich in praktisch alle modernen Systeme integrieren und hilft Ihnen, das Beste aus Ihrem Data Warehouse herauszuholen.


Nehmen Sie Kontakt
mit unseren Lösungsarchitekten in Verbindung, um einen Plan für die Bereinigung, Säuberung und abschließende Validierung von Daten mithilfe fortschrittlicher Automatisierungstechniken beim Aufbau Ihres Data Warehouse auszuarbeiten und sicherzustellen, dass Ihre Geschäftsanwender genaue Analysen erhalten.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.