Blog

Was ist Datenprofilierung: Umfang, Techniken und Herausforderungen

Unternehmen sind heute in hohem Maße von Daten abhängig, wenn es darum geht, ihr Geschäft auszubauen und ihre Ziele und Erwartungen zu erfüllen. Es werden enorme Anstrengungen unternommen, um einen perfekten Fahrplan für die Datenstrategie zu entwickeln und Informationen als wichtigstes Unternehmensgut zu nutzen, und dennoch sind die Ergebnisse nicht zufriedenstellend. Der häufigste Grund für das Scheitern datengesteuerter Initiativen ist die Unfähigkeit eines Unternehmens, seine Daten gut genug zu verstehen und sie dann korrekt den erwarteten Ergebnissen zuzuordnen.

Hier spielt die Datenprofilierung eine große Rolle.

Was ist Daten-Profiling?

Bei der Datenprofilierung geht es darum, verborgene Details über die Struktur und den Inhalt Ihrer Datensätze aufzudecken.

Die Verwendung dieser aufgedeckten Details hängt davon ab, was Sie mit Ihren Daten erreichen wollen. Wenn Sie beispielsweise die Datenqualität verbessern wollen, hilft Ihnen ein Datenprofil dabei, potenzielle Datenbereinigungsmöglichkeiten zu ermitteln und zu beurteilen, wie gut Ihre Daten im Hinblick auf die Datenqualität gepflegt werden.

Umfang der Datenprofilierung – Ist es nur eine Prüfung der Datenqualität?

Die Erstellung von Datenprofilen wird meist nur als Voraussetzung für die Sicherstellung der Datenqualität angesehen; in Wirklichkeit ist ihre Anwendung und Nutzung jedoch weitaus mehr als das. Data Profiling ist ein systematischer Prozess, der eine Reihe von Algorithmen implementiert, die empirische Details eines Datensatzes analysieren und bewerten und eine zusammenfassende Ansicht der Datenstruktur und ihrer Werte ausgeben. Diese Informationen können dann für jeden beliebigen Zweck verwendet werden, z. B. zum Hervorheben potenzieller Datenqualitätsprobleme, zur Festlegung von Verbesserungsbereichen, zum Mapping auf ein anderes Datenprofil für ein Zusammenführungsprojekt usw.

Betrachten wir einige grundlegende Zusammenhänge, in denen das Datenprofiling ausgiebig genutzt wird:

1. Reverse Engineering von Daten, um fehlende Metadaten zu ermitteln

In vielen Fällen, in denen Daten über einen langen Zeitraum hinweg erfasst werden, fehlen die Metadaten in der Regel oder sind unvollständig. Metadaten enthalten Details über jedes Attribut eines Datensatzes, wie z. B. seine:

  • Definition: der Zweck des zu speichernden Attributs,
  • Datentyp: die Art der Daten, die er enthalten darf, z. B. Zeichenkette, Zahl, Datum usw.,
  • Größe: die maximale oder minimale Anzahl von Zeichen, die sie enthalten kann,
  • Bereich: der Bereich, aus dem die Werte abgeleitet werden; z. B. können die Werte der Spalte Land nur aus einer Liste der tatsächlich in der Welt existierenden Länder abgeleitet werden.

Fehlen solche Informationen, werden die Werte eines Attributs reverse engineered – analysiert und zusammengefasst – um die fehlenden Metadaten aufzudecken, damit sie für andere Aktivitäten wie den Aufbau eines Unternehmensdatenmodells, die Planung von Datenmigrationen, die Erneuerung von Geschäftsprozessen usw. verwendet werden können.

2. Analyse der Anomalien

Bevor Daten für irgendeinen Zweck verwendet werden können, muss bestätigt werden, dass sie frei von Anomalien sind, da sonst die analysierten Ergebnisse verfälscht werden. Die Erstellung von Datenprofilen hilft bei der statistischen Analyse eines Datensatzes und bei der Identifizierung einer Reihe von Werten, die in den akzeptablen Bereich fallen, sowie bei der Erkennung von Ausreißern, die möglicherweise vorhanden sind. Bei der statistischen Analyse eines Datensatzes werden die Häufigkeitsverteilungen, die abweichenden Werte, der Prozentsatz der fehlenden Werte sowie die Beziehungen zwischen den Spalten desselben und verschiedener Datensätze untersucht.

3. Entdeckung impliziter Datenregeln

Bei der Erfassung, Speicherung und Bearbeitung von Daten wird eine Bibliothek von Datenregeln implementiert, um die Einhaltung von Datenstandards zu gewährleisten. Manchmal sind diese Regeln ziemlich offensichtlich und beabsichtigt, aber manchmal können diese Regeln auch völlig unbeabsichtigt und implizit in der Logik und den Prozessen eines Unternehmens sein.

Beispiele für solche Regeln sind Integritätsbeschränkungen oder relationale Abhängigkeiten zwischen Attributen. Ein Datenprofil kann Ihnen helfen, verborgene Regeln zu extrahieren, so dass sie bewusst in den Datenlebenszyklus integriert werden können.

Drei Ebenen der Datenprofilerstellung

Der Prozess der Datenprofilierung erfolgt auf drei Ebenen. Je nachdem, wie die Profiling-Ausgabe verwendet werden soll, können Sie das Profiling auf nur einer oder einer Kombination von Ebenen durchführen. Die Komplexität der Berechnungen nimmt mit steigender Stufe zu (mehr dazu im nächsten Abschnitt).

Auf der ersten und ersten Ebene wird eine einzelne Spalte durch die Anwendung verschiedener statistischer Verfahren analysiert. Auf der nächsten Ebene erfolgt die Analyse der Beziehungen zwischen mehreren Spalten innerhalb desselben Datensatzes. Auf der dritten Ebene schließlich analysieren wir die Beziehungen, die zwischen den Spalten verschiedener Datensätze oder Tabellen bestehen.

Gehen wir näher auf die einzelnen Ebenen ein.

1. Säulenprofilierung

Die Spaltenprofilierung bewertet verschiedene Merkmale, die die Werte einer Spalte darstellen, und gibt Aufschluss darüber, wie sie strukturiert ist – sowohl in Bezug auf die Metadaten als auch auf den Inhalt. Bei der Profilerstellung einer Spalte werden Häufigkeits-, statistische und deskriptive Analysen durchgeführt.

a. Frequenzanalyse

Dies bezieht sich auf eine Reihe von Techniken im Zusammenhang mit der Zählung und Verteilung von Werten in einer Spalte, wie z. B.:

  1. Bereichsanalyse: Sie prüft, ob die Werte einer Spalte einer Ordnung unterworfen werden können und ob es einen wohldefinierten Bereich (Mindest- und Höchstwerte) gibt, innerhalb dessen alle Werte abgebildet werden können.
  2. Nullanalyse: protokolliert den Prozentsatz der Werte, die in der Spalte null (leer) sind.
  3. Analyse der eindeutigen Werte: Zählt die Anzahl der eindeutigen Werte, die in der Spalte vorkommen.
  4. Analyse der Werteverteilung: Bewertet, wie die Werte einer Spalte innerhalb des festgelegten Bereichs verteilt sind.
  5. Eindeutigkeitsanalyse: Kennzeichnet, ob ein Wert in einer Spalte nur einmal vorkommt (eindeutig ist) oder nicht.
b. Statistische Analyse

Diese Analyse wird in der Regel für numerische Spalten oder solche, die sich auf Zeitstempel beziehen, durchgeführt. Sie gibt Einblicke in eine aggregierte oder zusammengefasste Ansicht der Spalte, wie z. B.:

  1. Min/Max-Wert: gibt den Mindest- und Höchstwert der Spalte an, indem alle Werte geordnet werden.
  2. Mittelwert: Berechnet den Durchschnittswert der Spalte.
  3. Median: wählt den mittleren Wert der geordneten Spaltenmenge aus.
  4. Standardabweichung: Berechnet die Schwankung innerhalb der Wertemenge der Spalte.
c. Deskriptive Analyse

Die deskriptive Analyse schließlich befasst sich eingehender mit dem Inhalt der Kolumne, anstatt sich auf ihre Struktur und Verteilung zu konzentrieren. Sie beinhaltet:

  1. Datentypanalyse: bestimmt den Datentyp und die maximale Größe der darin enthaltenen Zeichenanzahl, z. B. Zeichenkette, Zahl, Datum usw.
  2. Analyse des benutzerdefinierten Datentyps: Semantische Analyse von Werten, um festzustellen, ob ein abstrakter oder benutzerdefinierter Datentyp für die Spalte existiert, z. B. Adresse oder Telefonnummer usw.
  3. Musteranalyse: deckt verborgene Muster oder Formate auf, die in Spaltenwerten verwendet werden.
  4. Domänenanalyse: bildet den Raum ab, aus dem die Werte der Spalte abgeleitet werden; z. B. können die Werte der Spalte Land nur aus einer Liste der tatsächlich in der Welt existierenden Länder abgeleitet werden.

2. Säulenübergreifende Profilerstellung

Diese Art der Analyse identifiziert Abhängigkeiten oder Beziehungen, die zwischen mehreren Spalten bestehen. Da es sich um eine größere Datenmenge handelt, ist sie ressourcenintensiver.

a. Analyse der Primärschlüssel

Ein Primärschlüssel identifiziert jede in einem Datensatz vorhandene Entität eindeutig. Beispielsweise identifiziert eine Spalte Sozialversicherungsnummer für einen Kundendatensatz jeden Kunden eindeutig; in ähnlicher Weise identifiziert die Spalte Produktherstellernummer für einen Produktdatensatz jedes Produkt eindeutig, und so weiter.

Oftmals enthalten Datensätze diese eindeutig identifizierenden Attribute nicht oder sie sind zwar vorhanden, aber die meisten Werte fehlen. In solchen Fällen wird eine Kombination von Spalten ausgewählt und ihre Werte werden untersucht, um potenzielle Primärschlüssel zu ermitteln, die jeden Datensatz eindeutig identifizieren.

b. Analyse der Abhängigkeiten

Bei dieser Art der Analyse werden funktionale Abhängigkeiten zwischen mehreren Spalten ermittelt. Diese Beziehungen sind in der Regel in den Inhalt der Attribute eingebettet. Zum Beispiel gibt es eine Beziehung zwischen den beiden Spalten Stadt und Land. Wenn zwei Zeilen in einem Datensatz die gleiche Stadt haben, müssen auch die entsprechenden Länderwerte gleich sein.

Diese Art der Datenprofilierung hilft Ihnen, alle Beziehungen zu dokumentieren, die in Ihrem Datenbestand vorhanden sind – entweder allgemein oder spezifisch für Ihre organisatorischen Prozesse.

3. Tabellenübergreifendes Profiling

Die letzte Ebene der Datenprofilierung ist die rechnerisch komplexeste, da sie die Analyse mehrerer Spalten in mehreren Tabellen beinhaltet. Damit soll festgestellt werden, welche Beziehungen zwischen den Tabellen bestehen und wie gut diese Beziehungen gepflegt werden. Es umfasst folgende Techniken:

a. Analyse ausländischer Schlüssel

Bei der tabellenübergreifenden Profilerstellung werden Fremdschlüssel analysiert, um zu verstehen, wie eine Spalte einer Tabelle ihre Datensätze mit einer anderen Tabelle in Beziehung setzt. So kann ein Unternehmen beispielsweise die persönlichen Daten seiner Mitarbeiter in einer Tabelle und deren Beschäftigungsdaten in einer anderen Tabelle speichern. Es muss also ein Fremdschlüssel in der Mitarbeitertabelle vorhanden sein, der die Jobrolle jeder Person mit der Liste der verfügbaren Jobrollen und anderen zugehörigen Informationen wie Abteilung, Vergütungsdetails usw. verknüpft.

b. Analyse verwaister Datensätze

Bei dieser Analyse wird untersucht, ob eine Fremdschlüsselbeziehung verletzt wird. In Erweiterung des vorangegangenen Beispiels kann es zu einem Verstoß kommen, wenn der Personendatensatz eines Mitarbeiters seine Beschäftigungsrolle mit einem Fremdschlüssel identifiziert, der in der Jobrollentabelle nicht vorhanden ist.

Bei der tabellenübergreifenden Profilerstellung werden alle verwaisten Datensätze ermittelt, damit die fehlenden Daten aktualisiert und ergänzt werden können.

c. Doppelte Spalten

Oftmals werden dieselben Informationen in mehreren Spalten in mehreren Tabellen gespeichert. Alternativ werden unterschiedliche Informationen in mehreren Spalten gespeichert, die denselben Namen tragen. Diese Ähnlichkeiten/Unterschiede werden tabellenübergreifend in Spalten analysiert, indem die Spaltenwerte und ihre Schnittpunkte ausgewertet werden.

Herausforderungen bei der Erstellung von Datenprofilen

Die Erstellung von Datenprofilen ist zwar ein wichtiger Aspekt jeder datenorientierten Initiative, kann aber je nach Umfang und Größe des Analyseprozesses leicht aus dem Ruder laufen. Im Folgenden sind einige der häufigsten Herausforderungen bei der Erstellung von Datenprofilen aufgeführt:

1. Systemleistung

Der Prozess der Datenprofilerstellung ist rechenintensiv, da er eine große Anzahl von Spaltenvergleichen beinhaltet – innerhalb, zwischen und über Tabellen hinweg. Dies erfordert eine große Anzahl von Rechenressourcen wie Arbeitsspeicher und Festplattenplatz sowie mehr Zeit für die Fertigstellung und Erstellung der Ausgabeergebnisse. Der Einsatz eines Systems, das komplexe Berechnungen unterstützen kann, ist daher eine große Herausforderung.

2. Begrenzung der Reichweite der Ergebnisse

Da Datenprofilberichte durch Verdichtung und Aggregation von Datenwerten generiert werden, muss ein Schwellenwert festgelegt werden, der den Grad der Verdichtung definiert, der implementiert werden soll. Dies trägt dazu bei, aussagekräftigere und gezieltere Ergebnisse zu erzielen.

Sie möchten z. B. nicht wissen, welche Werte nur ein- oder zweimal in einer Spalte auftauchen, aber wenn sie mehr als zehnmal vorkommen, können sie einen Mehrwert für die Zusammenfassung darstellen und sollten daher einbezogen werden. Daher ist es eine schwierige Entscheidung, zu bestimmen, was in den endgültigen Profilbericht aufgenommen wird und was nicht.

3. Wertschöpfung durch profilierte Berichte

Die Analyse von Datensätzen zum Verständnis ihrer Struktur und ihrer inhaltlichen Gestaltung ist nur eine Seite der Medaille. Die erstellten Datenprofile müssen analysiert werden, um die nächsten Schritte zu verstehen. Es müssen erfahrene Datenexperten hinzugezogen werden, die die Berichte prüfen und erklären können, warum die Daten so sind, wie sie sind, und was getan werden kann, um sie bei Bedarf zu verändern.

4. Self-Service-Tools zur Erstellung von Datenprofilen

Wenn man bedenkt, wie rechenintensiv die Erstellung von Datenprofilen sein kann, ist dies ein Prozess, der in der Regel von technik- oder datenversierten Fachleuten durchgeführt werden sollte. Die Nichtverfügbarkeit von Selbstbedienungs-Softwaretools zur Erstellung von Datenprofilen ist eine häufige Herausforderung.

Ein Self-Service-Tool zur Erstellung von Datenprofilen, das einen schnellen 360°-Blick auf die Daten ermöglicht und grundlegende Anomalien wie leere Werte, Felddatentypen, wiederkehrende Muster und andere deskriptive Statistiken identifiziert, ist eine Grundvoraussetzung für jede datengesteuerte Initiative. DataMatch Enterprise von Data Ladder ist eine voll funktionsfähige Datenqualitätslösung, die Datenprofilierung als ersten von vielen Schritten zur Korrektur, Optimierung und Verfeinerung Ihrer Daten bietet.

Wenn Sie mehr darüber erfahren möchten, wie unsere Lösung zur Lösung Ihrer Datenqualitätsprobleme beitragen kann, melden Sie sich noch heute für eine kostenlose Testversion an oder vereinbaren Sie eine Demo mit einem unserer Experten.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.