Blog

Zusammenführung von Daten aus mehreren Quellen – Herausforderungen und Lösungen

Zusammenführung von Daten aus mehreren Quellen

Die Zusammenführung von Daten ist ein Prozess, bei dem Daten aus mehreren Quellen zu einem einzigen Bezugspunkt oder einer einzigen Wahrheit zusammengeführt werden. Obwohl dies ein scheinbar einfaches Ziel ist, ist die Datenzusammenführung ein Prozess, der so kompliziert ist wie das Entwirren eines verknoteten Garnknäuels. Der Grund? Ein durchschnittliches Unternehmen hat rund 464 benutzerdefinierte Anwendungen zur Abwicklung seiner Geschäftsprozesse im Einsatz.

Hinzu kommt, dass die meisten Datenbanken Probleme mit Doppelarbeit, Inkonsistenzen und Ungenauigkeiten haben. Der Name und die Adresse eines Kunden können von 10 verschiedenen Personen in 10 verschiedenen Datenbeständen auf 10 verschiedene Arten geschrieben werden. Darüber hinaus gibt es 10 verschiedene Quellen, aus denen diese Daten stammen – Websites, Formulare für Landing Pages, Social-Media-Werbung, Verkaufsaufzeichnungen, Rechnungsaufzeichnungen, Marketingaufzeichnungen, Aufzeichnungen über Kaufpunkte und andere Bereiche, in denen der Kunde mit dem Unternehmen interagiert hat.

Wenn es jedoch darum geht, nützliche Erkenntnisse aus den gesammelten Daten zu gewinnen, ist es wichtig, alle diese Datenquellen zu kombinieren und einen einzigen Bezugspunkt zu erhalten.

In diesem Artikel behandeln wir wichtige Themen wie:

  • Szenarien, in denen eine Zusammenführung von Daten erforderlich wird
  • Zusammenführen von Daten aus mehreren Quellen
  • Herausforderungen bei der Zusammenführung von Daten
  • Bewährte Verfahren für eine reibungslose Datenzusammenführung

Fangen wir an.

Szenarien, in denen eine Zusammenführung von Daten erforderlich wird

Lassen Sie uns die Bedeutung der Zusammenführung von Daten aus mehreren Quellen in drei verschiedenen Szenarien näher erläutern:

1. Initiative zur digitalen Transformation

Die Zusammenführung von Daten ist erforderlich, wenn disparate Dateien (z. B. Textdateien, CSV-Dateien, Excel-Tabellen, SQL-Datenbanken oder andere Dateiformate) in ein vollwertiges Datenhosting- und -verarbeitungssystem verschoben werden, um automatisierte Arbeitsabläufe zu ermöglichen, die Suchfunktion zu verbessern, den Zugriff auf Informationen zu kontrollieren und vieles mehr.

2. Business Intelligence vorantreiben

Bei der Datenzusammenführung werden in der Regel Daten aus verschiedenen Anwendungen (z. B. CRM, Marketing-Automatisierungstools, Website-Analysetools usw.) kombiniert und zusammengeführt, um sie für die weitere Datenanalyse und -verarbeitung vorzubereiten und nützliche Erkenntnisse für künftige Vorhersagen zu gewinnen.

3. Integration von Daten nach Fusionen und Übernahmen

Fusionen und Übernahmen sind mit komplexen Abläufen verbunden. Einer der kompliziertesten Schritte ist die Zusammenführung von Daten aus verschiedenen Unternehmen in einem Repository und die Anpassung von Prozessen an die neu zusammengeführten Projekte, Strukturen und Arbeitsabläufe.

Zusammenführen von Daten aus mehreren Quellen

Die Zusammenführung von Daten sollte als genau überwachter und kontrollierter Prozess behandelt werden, um Datenverluste oder irreversible Schäden an einzelnen beteiligten Datenstrukturen zu vermeiden. Im Folgenden werden die drei Phasen der Datenzusammenführung erläutert:

Prozess vor der Fusion

1. Datenprofilierung

Ohne eine Profilierung der einzelnen Datenquellen ist es schwierig, die Daten, mit denen Sie arbeiten, oder die Auswirkungen Ihrer Entscheidungen während des Zusammenführungsprozesses zu verstehen. Ein Datenprofilierungsprozess gibt Einblick in zwei wichtige Teile Ihrer Daten:

a. Analyse der Attribute

Sie identifiziert und markiert die Liste der Attribute (Datenspalten), die jede Datenquelle enthält. Dies hilft Ihnen zu verstehen, wie Ihre zusammengeführten Daten vertikal skaliert werden können, je nachdem, welche Attribute zusammengeführt werden können und welche angehängt werden müssen, da sie separate Informationen darstellen.

b. Statistische Analyse der einzelnen Attribute

Es analysiert die in jeder Spalte einer Quelle enthaltenen Datenwerte, um die Verteilung, Vollständigkeit und Eindeutigkeit der Attribute zu beurteilen. Darüber hinaus validiert ein Datenprofil auch die Werte anhand eines definierten Musters und hebt ungültige Werte hervor.

Datenprofile berechnen und präsentieren den aktuellen Zustand Ihrer Datenquellen und zeigen potenzielle Bereinigungsmöglichkeiten und andere Überlegungen auf, bevor der eigentliche Zusammenführungsprozess beginnen kann.

2. Datenbereinigung, -standardisierung und -umwandlung

Es ist unpraktisch, Datenquellen zusammenzuführen, die unvollständige, ungenaue oder ungültige Werte enthalten. Datenattribute in zwei verschiedenen Quellen können konzeptionell dieselben Informationen darstellen, aber das Format ihrer Datenwerte kann völlig unterschiedlich sein. Diese strukturellen und lexikalischen Unterschiede in den Daten können zu Datenverlusten und nicht behebbaren Fehlern führen, wenn die Daten zusammengeführt werden, ohne dass sie bereinigt und standardisiert wurden. Unter Verwendung der erstellten Datenprofile als Referenzpunkt werden eine Reihe von Schritten zur Standardisierung der Datenqualität unternommen, von denen einige im Folgenden hervorgehoben werden:

  • Ersetzen von ungültigen Zeichen durch korrekte Werte (z. B. Ersetzen von nicht druckbaren Zeichen, Nullwerten, führenden oder nachfolgenden Leerzeichen usw.)
  • Zerlegung langer Datenfelder in kleinere Komponenten zur Standardisierung von Daten aus verschiedenen Quellen (z. B. Zerlegung des Adressfelds in Straßennummer, Straßenname, Ort, Postleitzahl und Land). Das Parsing der Datenfelder auf diese Weise stellt sicher, dass die Datengenauigkeit nach der Zusammenführung der Daten erhalten bleibt.
  • Definition von Integritätseinschränkungen, Mustervalidierungen und zulässigen Datentypen für alle Attribute (z. B. maximale/minimale Anzahl von Zeichen für das Feld Number , das nur Zahlen oder Bindestriche in einem Muster wie NNN-NNN-NNNN enthalten darf).
3. Datenfilterung

Möglicherweise möchten Sie nur Teilmengen Ihrer Datenquellen zusammenführen, anstatt eine vollständige Zusammenführung durchzuführen. Diese horizontale oder vertikale Aufteilung Ihrer Daten ist in der Regel erforderlich, wenn:

  • Sie möchten Daten zusammenführen, die in einen bestimmten Zeitraum fallen (horizontales Slicing).
  • Sie möchten Daten für die Analyse zusammenführen, und nur eine Teilmenge der Zeilen erfüllt die bedingten Kriterien (horizontales Slicing).
  • Ihre Daten enthalten eine Reihe von Attributen, die keine wertvollen Informationen enthalten (vertikales Slicing).

Wenn Sie alle Daten zusammenführen möchten, ohne etwas auszulassen, können Sie zum nächsten Schritt übergehen.

4. Daten-Deduplizierung

Mitunter neigen Unternehmen dazu, die Informationen einer einzelnen Einheit in mehreren Quellen zu speichern. Jeder dieser Datensätze enthält einige wertvolle Daten über die betreffende Einheit. Die Zusammenführung von Daten wird schwierig, wenn Ihre Datensätze Duplikate enthalten. Bevor mit dem Zusammenführungsprozess begonnen wird, müssen unbedingt geeignete Algorithmen zum Datenabgleich durchgeführt werden, um Duplikate zu erkennen, bedingte Regeln zum Löschen von Duplikaten anzuwenden und die Eindeutigkeit der Datensätze in allen Quellen zu gewährleisten.

Prozess der Zusammenführung: Datenaggregation/-integration

Die Daten sind nun bereit für den Zusammenführungsprozess. Je nach Zweck können die Daten auf unterschiedliche Weise zusammengeführt werden:

  • Anhängen von Zeilen
  • Anhängen von Spalten
  • Anhängen von Zeilen und Spalten sowohl
  • Bedingte Zusammenführung

Gehen wir auf jedes dieser Szenarien ein wenig näher ein.

1. Zeilen anhängen

Das Anhängen von Zeilen ist nützlich, wenn Sie aus verschiedenen Quellen erfasste Datensätze an einer Stelle sammeln und kombinieren möchten.

Ein Beispiel für das Anhängen von Zeilen ist, wenn Sie Kundeninformationen über mehrere Kontaktverwaltungssysteme gesammelt haben, nun aber alle Datensätze an einer Stelle zusammenführen müssen.

Überlegungen

  • Alle zu kombinierenden Datenquellen sollten die gleiche Struktur (Spalten) haben.
  • Datentypen, Integritätseinschränkungen und Mustervalidierungen der entsprechenden Spalten sollten identisch sein, um ungültige Formatfehler zu vermeiden.
  • Bei Vorhandensein von eindeutigen Bezeichnern ist darauf zu achten, dass verschiedene Quellen nicht dieselben eindeutigen Bezeichner enthalten, da es sonst zu Fehlern beim Zusammenführen kommt.
  • Wenn sich die Daten einer Entität über mehrere Datensätze aus unterschiedlichen Quellen erstrecken, sollten Sie vor dem Zusammenführungsprozess einen Datenabgleich und eine Deduplizierung durchführen.
2. Spalten anhängen

Das Anhängen von Spalten ist nützlich, wenn Sie bestehenden Datensätzen weitere Dimensionen hinzufügen möchten.

Ein Beispiel für das Anhängen von Spalten ist, wenn Sie die Online-Kontaktinformationen Ihrer Kunden in einem Datensatz und ihre physischen oder häuslichen Kontaktinformationen in einem anderen Datensatz haben und beide Datensätze zu einem einzigen kombinieren möchten.

Überlegungen

  • Alle Spalten der unterschiedlichen Quellen sollten eindeutig sein (keine Duplikate).
  • Jeder Datensatz sollte über alle Datensätze hinweg eindeutig identifizierbar sein, so dass Datensätze mit demselben Identifikator zusammengeführt werden können.
  • Wenn ein Datensatz keine Daten für die Zusammenführungsspalte enthält, können Sie für alle Datensätze in diesem Datensatz Nullwerte angeben.
  • Wenn mehrere Datensätze dieselben Dimensionsinformationen enthalten, können Sie die Dimensionen auch in einem Feld zusammenfassen (durch ein Komma getrennt usw.), wenn Sie keine Daten verlieren wollen.
3. Bedingte Zusammenführung

Die bedingte Zusammenführung ist nützlich, wenn Sie unvollständige Datensätze haben, die zusammengeführt werden müssen. Bei dieser Art der Zusammenführung suchen Sie nach Werten aus einem Datensatz und füllen sie in den anderen Datensätzen entsprechend mit dem richtigen Datensatz/Attribut.

Ein Beispiel für eine bedingte Zusammenführung ist, wenn Sie eine Liste von Produkten in einem Datensatz haben, aber der durchschnittliche Umsatz pro Monat für jedes dieser Produkte in einem anderen Datensatz erfasst wird. Um nun die Daten zusammenzuführen, müssen Sie möglicherweise jeden Produktverkauf aus dem zweiten Datensatz nachschlagen und diese Daten an den richtigen Produktdatensatz im ersten Datensatz anhängen. Dies geschieht in der Regel, wenn in einem Datensatz keine eindeutigen Bezeichner vorhanden sind und Sie daher einen bedingten Vergleich auf der Grundlage einer anderen Spalte durchführen und entsprechend zusammenführen müssen.

Überlegungen

  • Der Datensatz, aus dem Sie Werte abrufen, sollte alle eindeutigen Datensätze enthalten (z. B. eine durchschnittliche Verkaufszahl für jedes Produkt).
  • Der Datensatz, an den Sie Daten anhängen, kann nicht eindeutig sein (z. B. werden Produkte nach Standort aufgelistet, so dass dass dasselbe Produkt, das an mehreren Standorten verkauft wird, mehr als einmal aufgeführt sein kann).

Zusätzlicher Hinweis

Welche Art der Zusammenführung Sie verwenden, hängt stark von Ihrem spezifischen Anwendungsfall ab. Wenn Ihre Datensätze nicht viele Nullwerte enthalten und relativ vollständig sind, kann das Anhängen von Zeilen oder Spalten oder beides Ihren Anforderungen entsprechen. Wenn Sie jedoch auf Lücken in Ihren Datensätzen stoßen, müssen Sie diese Werte möglicherweise zunächst nachschlagen und auffüllen. Häufig verwenden Unternehmen alle Techniken der Datenzusammenführung, um ihre Daten zusammenzuführen. Sie können zum Beispiel zunächst eine bedingte Zusammenführung durchführen und dann den Zusammenführungsprozess durch Anhängen von Zeilen und Spalten abschließen.

Post-Merger-Prozess

1. Profiling der zusammengeführten Quelle

Wenn der gesamte Zusammenführungsprozess abgeschlossen ist, muss unbedingt eine abschließende Profilprüfung der zusammengeführten Quelle durchgeführt werden – genau wie zu Beginn des Prozesses für einzelne Quellen. Dadurch werden alle bei der Zusammenführung aufgetretenen Fehler angezeigt und es wird hervorgehoben, ob Informationen unvollständig oder ungenau sind oder ungültige Werte enthalten usw.

Herausforderungen bei der Datenzusammenführung

1. Heterogenität der Daten

Eine der größten Herausforderungen bei der Zusammenführung von Daten ist die Heterogenität der Daten – die strukturellen und lexikalischen Unterschiede zwischen den zusammenzuführenden Datensätzen.

a. Strukturelle Heterogenität

Wenn diese Datensätze nicht die gleiche Anzahl und Art von Spalten/Attributen enthalten, wird dies als strukturelle Heterogenität bezeichnet. In einer Datenbank könnte beispielsweise der Name eines Kontakts als Kontaktname gespeichert sein, während er in einer zweiten Datenbank in mehreren Spalten wie Anrede, Vorname, mittlerer Name und Nachnamegespeichert ist .

b. Lexikalische Heterogenität

Lexikalische Heterogenität liegt vor, wenn die Felder verschiedener Datenbanken zwar strukturell gleich sind, aber dieselbe Information auf syntonisch unterschiedliche Weise darstellen. So können beispielsweise zwei oder mehr Datenbanken dasselbe Adressfeld haben, aber eine kann einen Adresswert haben: 32 E St. 4, während in der anderen 32 East, 4 th Straße.

Um diese Herausforderung zu meistern, müssen die Spalten geparst und zusammengeführt werden, um in allen Datensätzen die gleiche Struktur zu erhalten. Darüber hinaus sollten die Spaltenwerte so umgewandelt werden, dass sie der gleichen Syntax folgen.

2. Skalierbarkeit

In der Regel werden Initiativen zur Datenzusammenführung mit Blick auf eine bestimmte Anzahl von Quellen und Typen geplant und umgesetzt und lassen keinen Raum für Skalierbarkeit. Dies ist eine große Herausforderung, da sich die Anforderungen von Unternehmen im Laufe der Zeit ändern und sie ein System benötigen, das mehr Datenquellen mit unterschiedlichen Strukturen und Speichermechanismen integrieren kann.

Um diese Herausforderung zu meistern, ist es wichtig, während des Zusammenführungsprozesses ein skalierbares Integrationsdesign zu implementieren und zu nutzen, anstatt die Integration nur für bestimmte Quellen fest zu kodieren. Ein wiederverwendbares Datenintegrationssystem berücksichtigt aktuelle und künftige Möglichkeiten und baut eine skalierbare Architektur auf, die Daten aus einer Reihe von Quellen bezieht und verschiedene Datenformate unterstützt, wie z. B. APIs, SQL-Datenbanken, Textdateien, ETL-Warehouses usw.

3. Vervielfältigung

Unabhängig davon, welche Technik der Datenzusammenführung Sie planen, ist die Datenduplizierung eine große Herausforderung, die es zu bewältigen gilt. Duplikate können in Ihrer Datenbank in verschiedenen Formen vorkommen, einige davon sind üblich:

  • Mehrere Datensätze, die dieselbe Entität repräsentieren (mit oder ohne eindeutigen Bezeichner).
  • Mehrere Attribute, die dieselben Informationen über eine Entität speichern.
  • Doppelte Datensätze oder Attribute, die im selben Datensatz gespeichert sind oder sich über mehrere Datensätze erstrecken.

Dieses Problem der Duplizierung kann gelöst werden durch:

  • Auswahl und Konfiguration geeigneter Datenabgleichsalgorithmen, die Datensätze identifizieren, die dieselbe Entität repräsentieren. In Ermangelung eindeutiger Identifikatoren muss eine Kombination aus fortschrittlichen Fuzzy-Matching-Algorithmen verwendet werden, um genaue Übereinstimmungen zu finden.
  • Definition einer Reihe von bedingten Regeln, die auf intelligente Weise gleiche oder ähnliche Spalten bewerten und vorschlagen, welche dieser Attribute vollständigere, genauere und gültigere Werte enthalten.

4. Langwieriger Zusammenführungsprozess

Die Datenintegrationsprozesse dauern oft länger als erwartet. Der häufigste Grund dafür ist eine schlechte Planung und unrealistische Erwartungen, die zu Beginn gesetzt werden. Es ist einfacher, etwas von Grund auf neu zu beginnen, als etwas zu korrigieren, das bereits eingeführt wurde und seit Jahrzehnten in Kraft ist.

Es ist von entscheidender Bedeutung, die Datenmenge zu berücksichtigen, mit der Sie zu tun haben, und die Datenprofile aller Quellen zu bewerten, bevor Sie einen realistischen Implementierungsplan erstellen können.

Ein weiterer Grund für langwierige Integrationsprojekte sind Ergänzungen oder Änderungen in letzter Minute. Das Team muss einige Zeit in den Prozess der Vorbewertung investieren und Informationen von allen beteiligten Akteuren sammeln, z. B. von Geschäftsanwendern (die die Daten eingeben/erfassen), Administratoren (die die Daten verwalten) und Datenanalysten (die die Daten auswerten).

Bewährte Verfahren für eine reibungslose Datenzusammenführung

1. Wissen, was zu integrieren ist

Bevor Sie mit der Datenintegration beginnen, sollten Sie einige Zeit damit verbringen, die beteiligten Datenquellen zu bewerten. Auf diese Weise lässt sich genau bestimmen, was kombiniert werden soll – die Quellen und die darin enthaltenen Attribute. Es könnte sein, dass alte Datensätze veraltet sind und nicht für den Integrationsprozess berücksichtigt werden sollten. Wenn Sie genau wissen, was Sie kombinieren müssen, können Sie den Prozess schneller und genauer durchführen.

2. Daten visualisieren

Es ist immer am besten, die Daten, mit denen man zu tun hat, zu verstehen, und das geht am schnellsten, wenn man sie visualisiert. Es ist nicht nur einfacher zu bewerten, sondern gibt Ihnen auch einen vollständigen Überblick über alle Ausreißer oder Ungültigkeiten, die sich in Ihrem Datensatz befinden könnten. Statistische Histogramme und Balkendiagramme zur Darstellung der Vollständigkeit von Attributen können sehr nützlich sein.

3. Versuchen Sie es mit automatisierten Selbstbedienungstools

Die manuelle Durchführung des gesamten Prozesses der Datenintegration und -aggregation scheint ein ressourcen- und kostenintensiver Prozess zu sein. Testen Sie automatisierte Datenintegrationstools zur Selbstbedienung, die eine Komplettlösung für die schnelle, genaue und detaillierte Erstellung von Datenprofilen, Bereinigung, Abgleich, Integration und Laden bieten.

DataMatch Enterprise von Data Ladder ist ein solches Tool, das nahtlos eine Vielzahl von Datentypen und -formaten unterstützt, darunter lokale Dateien (Textdateien, CSV, Excel-Tabellen), Datenbanken (SQL Server, Oracle, Teradata), Cloud-Speicher (CRMs wie Salesforce), APIs und andere Datenbanken über ODBC-Verbindungen sowie die Erstellung nativer Konnektoren auf der Grundlage spezifischer Benutzeranforderungen.

4. Entscheiden Sie, wo die zusammengeführten Daten gehostet werden sollen

Möglicherweise möchten Sie Daten aus allen Quellen in einer Zielquelle zusammenführen oder den zusammengeführten Datensatz in eine völlig neue Quelle laden. Vergewissern Sie sich je nach Anforderung, dass Sie die Zielquelle entsprechend getestet, entworfen und strukturiert haben, so dass sie die eingehenden zusammengeführten Daten effizient verarbeiten kann.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.