Blog

Stapelverarbeitung versus Validierung der Datenqualität in Echtzeit

Eine kürzlich durchgeführte Umfrage zeigt, dass 24 % der Datenteams Tools verwenden, um Datenqualitätsprobleme zu finden, die jedoch in der Regel nicht behoben werden. Das bedeutet, dass die meisten Datenqualitätstools in der Lage sind, Probleme zu erkennen und Warnungen auszusprechen, wenn die Datenqualität unter einen akzeptablen Schwellenwert sinkt. Sie lassen jedoch einen wichtigen Aspekt außer Acht: die Automatisierung der Ausführung von Datenqualitätsprozessen (zeit- oder ereignisbasiert) und die automatische Lösung von Problemen. Das Fehlen einer solchen Strategie zwingt zu menschlichen Eingriffen – das heißt, jemand muss Datenqualitätsprozesse im Tool auslösen, überwachen und beenden, um diese Probleme zu beheben.

Dies ist ein großer Aufwand, insbesondere in Unternehmen, die täglich große Datenmengen produzieren. Aus diesem Grund müssen Unternehmen mehr Personal einstellen und mehr Ressourcen aufwenden, die ausschließlich dafür zuständig sind, die konfigurierten Datenqualitätsprüfungen für neu anfallende Daten regelmäßig durchzuführen. Einige Unternehmen ziehen jedoch die Möglichkeit in Betracht, die Überprüfung der Datenqualität in großem Umfang für die Stapelverarbeitung zu bestimmten Tages- oder Wochenzeiten zu automatisieren.

In diesem Blog werden wir uns mit der geplanten Datenqualitätsüberprüfung befassen und sehen, wie sie im Vergleich zur sofortigen Datenqualitätsüberprüfung abschneidet.

Validierung der Datenqualität

Bevor wir uns mit den beiden verschiedenen Arten der Datenqualitätsvalidierung befassen, ist es wichtig zu überprüfen, was die Datenqualitätsvalidierung eigentlich umfasst.

Die meisten Daten, die heute in Unternehmen produziert werden, weisen verschiedene Formen von Qualitätsfehlern auf. Aus diesem Grund entwerfen Datenverantwortliche Rahmenwerke für das Datenqualitätsmanagement oder Verbesserungspläne, die Datenqualitätsprobleme bewerten, identifizieren, beheben und überwachen. In diesem Rahmen wird eine Liste von Datenqualitätsprozessen so konfiguriert, dass sie bei neuen Daten ausgeführt werden, um sicherzustellen, dass eventuell auftretende Fehler rechtzeitig behoben werden. Diese Prozesse umfassen in der Regel:

  1. Sammeln von Input
    1. Abrufen neuer Daten aus unterschiedlichen Quellen.
  2. Verarbeitung
    1. Profiling von Daten zur Hervorhebung von Fehlern,
    2. Analysieren, Bereinigen und Standardisieren vonDaten, um eine einheitliche Ansicht zu erhalten,
    3. Abgleich von Datensätzen, die zur gleichen Entität gehören (genau auf Basis eines eindeutigen Bezeichners oder unscharfer Abgleich auf Basis einer Kombination von Feldern),
    4. Zusammenführung von Datensätzen, um unnötige Informationen zu entfernen und eine einzige Quelle der Wahrheit zu schaffen.
  3. Ausgang laden
    1. Speicherung der einzigen Quelle der Wahrheit in der Zielquelle.

Wann ist die Datenqualität zu validieren?

Die Ausführung dieser Prozesse für neue Daten kann zu zwei Zeitpunkten erfolgen: Sie können die Validierung der Datenqualität entweder für einen späteren Zeitpunkt am Tag oder in der Woche planen (geplant) oder sie sofort für jeden anfallenden Datenstrom validieren, bevor dieser in der Datenbank gespeichert wird (in Echtzeit).

Schauen wir uns beide im Detail an.

Zeitplanung der Datenqualitätsprüfung für die Stapelverarbeitung

Stapelverarbeitung bedeutet, dass dieselbe Reihe von Vorgängen wiederholt auf einer großen Datenmenge zu einem geplanten Zeitpunkt ausgeführt wird.

Das Konzept der Stapelverarbeitung ist im Bereich der Datenverarbeitung weit verbreitet. Da das Datenvolumen exponentiell ansteigt, kann die Validierung anstehender Datenströme in Echtzeit eine große Herausforderung und Einschränkung darstellen. Aus diesem Grund kann die Stapelverarbeitung großer Datenmengen zu einer bestimmten Tages- oder Wochenzeit sehr effizient sein.

Nachfolgend sind einige Aspekte aufgeführt, die bei der Planung von Datenqualitätsvalidierungsaufgaben durch automatisiertes Datenqualitätsmanagement zu berücksichtigen sind:

  1. Welche Aufgaben sind auszuführen?
  2. In welcher Reihenfolge sollen die Aufgaben ausgeführt werden?
  3. Wie lauten die konfigurierten Variablen und Definitionen der auszuführenden Aufgaben (falls zutreffend)?
  4. Wo befinden sich die Ein- und Ausgänge?
  5. Wann soll die Ausführung von Aufgaben ausgelöst werden?

Szenario: Planung der Validierung der Datenqualität für Kundendaten

Abhängig von Ihrem Datenqualitätsmanagement-Framework können Sie für jeden Datensatz mehrere Aufgaben konfigurieren. Wahrscheinlich erfassen und speichern Sie Kundeninformationen an mehreren Stellen in Ihrem Unternehmen. Ein Analysetool verfolgt die Website-Aktivitäten, ein Marketing-Automatisierungstool speichert die E-Mail-Aktivitäten, eine Buchhaltungssoftware speichert die Abrechnungstransaktionen, ein CRM verwaltet die Kundenkontaktdaten und so weiter. Aber um diese Daten nutzbar zu machen, müssen sie es wahrscheinlich auch sein:

  1. Frei von Datenqualitätsfehlern, wie Formatierung, Rechtschreibfehler, Unvollständigkeit usw.
  2. Zusammengefasst, um eine einzige Quelle der Wahrheit über jeden Kunden darzustellen.

Ein effizienter Weg zur Bewältigung dieses Szenarios ist die Wahl eines automatisierten Ansatzes, bei dem ein Hintergrunddienst die (oben erwähnten) Aufgaben zur Validierung der Datenqualität zu geplanten Zeiten ausführt. Dadurch wird sichergestellt, dass die Kundendaten am Ende eines jeden Tages abgerufen, verarbeitet und in eine Zielquelle geladen werden (zum Beispiel), und der manuelle Aufwand für die Verwaltung dieser Prozesse wird reduziert.

Vor- und Nachteile der zeitlichen Planung der Datenqualitätsvalidierung

Im Folgenden werden einige Vorteile und Herausforderungen bei der Planung der Datenqualitätsvalidierung erläutert:

Profis

  1. Einer der größten Vorteile der Stapelverarbeitung von Daten ist die effektive Nutzung der Ressourcen. Sie reduzieren und eliminieren nicht nur menschliche Eingriffe bei der Ausführung, sondern stellen auch sicher, dass andere Ressourcen (wie Desktop- oder Server-Rechenleistung) zu den besten Zeiten genutzt werden – wenn sie ungenutzt und verfügbar sind.
  2. Ein weiterer Vorteil ist, dass die Wahrscheinlichkeit menschlicher Fehler verringert wird und in regelmäßigen Abständen konsistente Ergebnisse erzielt werden . Wenn dieselben Aufgaben von Einzelpersonen erledigt werden, kann es aufgrund des unterschiedlichen menschlichen Urteilsvermögens zu Verspätungen oder Inkonsistenzen kommen.
  3. Die planmäßige Verarbeitung steigert auch die Effizienz und Produktivität des Unternehmens, da die Ergebnisse rechtzeitig und mit minimalem Aufwand zur Verfügung stehen.
  4. Die Planung von Datenqualitätsaufgaben in großen Mengen zu einem bestimmten Zeitpunkt ist einfacher und weniger komplex als der Entwurf einer Echtzeit-Validierungsarchitektur.
  5. In der Regel benötigen Sie keine spezielle Hardware für die Ausführung geplanter Hintergrunddienste, da keine dringende Notwendigkeit für eine schnelle Verarbeitung und Ergebnisgenerierung besteht.

Nachteile

  1. Einer der größten Nachteile einer verzögerten Datenqualitätsvalidierung ist die Ausfallzeit, wenn die Daten ungültig bleiben und darauf warten, zum geplanten Zeitpunkt verarbeitet zu werden.
  2. Aufgaben werden so geplant, dass sie in arbeitsfreien Zeiten ausgeführt werden – und wenn der Planungsdienst nicht ausgelöst wird (aufgrund eines Fehlers oder einer Störung), können die Daten unverarbeitet bleiben, bis ein Mensch eingreift und sie zwangsweise auslöst.
  3. Möglicherweise ist zusätzliches technisches Fachwissen erforderlich, um die geplanten Aufträge so zu gestalten, dass die Hardware und der Stromverbrauch angemessen genutzt werden, und um Warnungen für die Erledigung von Aufgaben und Fehlerbenachrichtigungen auszulösen.

Implementierung einer Echtzeit-Validierung der Datenqualität

Die Validierung der Datenqualität in Echtzeit bezieht sich auf die Überprüfung der Datenqualität, bevor sie in der Datenbank gespeichert werden.

Um jederzeit eine saubere, standardisierte und deduplizierte Sicht auf die Daten zu erhalten, können die Daten validiert werden, bevor sie in der Datenbank gespeichert werden. Dies kann auf zwei Arten geschehen:

  1. Implementierung von Datenvalidierungsprüfungen für alle Dateneingabe-Tools, z. B. Website-Formulare, CRMs, Buchhaltungssoftware usw.
  2. Einsatz einer zentralen Datenqualitäts-Firewall oder -Engine, die jeden eingehenden Datenstrom verarbeitet und validiert, bevor er in der Datenbank gespeichert wird.

Obwohl der erste Fall technisch weniger komplex ist, könnte es eine Herausforderung sein, Datenqualitätsprüfungen und -vorrichtungen über verschiedene Anwendungen hinweg zu synchronisieren. Aus diesem Grund entscheiden sich viele Unternehmen für die zweite Option, bei der sie eine Datenqualitäts-Firewall innerhalb ihrer Datenmanagement-Architektur implementieren.

Einige entwickeln eine benutzerdefinierte Datenqualitäts-Firewall für ihre spezifischen Anforderungen an die Datenqualität, während andere die API-Dienste von Drittanbietern nutzen und in ihre Datenarchitektur integrieren. In beiden Fällen wird das gleiche Ergebnis erzielt: Sie sind in der Lage, die Qualität der Daten zum Zeitpunkt der Dateneingabe oder vor ihrer Speicherung in der Datenbank zu überprüfen.

Szenario: Validierung der Datenqualität für Kundendaten in Echtzeit

In dem oben erwähnten Beispiel können Sie Datenqualitätsprüfungen für anstehende Kundendaten in Echtzeit durchführen. Wenn eine Änderung an einem Kundendatensatz vorgenommen oder ein neuer Kundendatensatz in einer der angeschlossenen Anwendungen erstellt wird, wird die Aktualisierung zunächst an das zentrale Datenqualitätsmodul gesendet. Hier wird die Änderung anhand der konfigurierten Datenqualitätsdefinition überprüft, z. B. um sicherzustellen, dass die erforderlichen Felder nicht leer sind, dass die Werte dem Standardformat und -muster entsprechen, dass ein neuer Kundendatensatz möglicherweise nicht mit einem bestehenden Kundendatensatz übereinstimmt usw.

Wenn Datenqualitätsfehler gefunden werden, wird eine Liste von Transformationsregeln ausgeführt, um die Daten zu bereinigen. In manchen Fällen benötigen Sie einen Datenqualitätsbeauftragten, der eingreift und Entscheidungen trifft, wenn Datenwerte mehrdeutig sind und von konfigurierten Algorithmen nicht gut verarbeitet werden können. So besteht beispielsweise eine 60-prozentige Wahrscheinlichkeit, dass es sich bei einem neuen Kundendatensatz um ein Duplikat handelt, und jemand muss das Problem manuell überprüfen und beheben.

Vor- und Nachteile der sofortigen Validierung der Datenqualität

Hier sind einige Vorteile und Herausforderungen der sofortigen Validierung der Datenqualität:

Profis

  1. Einer der größten Vorteile der Datenqualitätsprüfung in Echtzeit besteht darin, dass sie einen zuverlässigen Datenzustand zu den meisten Zeiten gewährleistet, indem sie die Datenqualität sofort nach jeder Aktualisierung validiert und korrigiert.
  2. Da die Datenqualitäts-Firewall zentral implementiert wird, können Sie eine einheitliche Datenqualität über alle unternehmensweiten Datenspeicher hinweg erreichen.
  3. Es kann Ihnen dabei helfen, benutzerdefinierte Workflows auf der Grundlage Ihrer bestehenden Datenverwaltungsarchitektur zu implementieren. So können Sie beispielsweise bestimmte Daten nach der Bereinigung an bestimmte Stellen weiterleiten oder Warnmeldungen ausgeben, wenn etwas dringend erledigt werden muss.
  4. Eine Datenqualitäts-Firewall, die einen Front-End-Mechanismus für die Datenüberprüfung durch Datenverwalter implementiert, kann auch dazu beitragen, Standardergebnisse in besonderen Fällen außer Kraft zu setzen, z. B. um falsche Entscheidungen von Abgleichsalgorithmen außer Kraft zu setzen. Andererseits wurde bei der Stapelverarbeitung das menschliche Eingreifen vollständig eliminiert, was dazu führte, dass einige falsch negative oder positive Ergebnisse in Ihrem Datensatz auftauchten.
  5. Mit diesem Ansatz können Sie die Multi-Thread-Verarbeitung aktivieren, d. h. die Firewall kann mehrere Anfragen von verschiedenen Anwendungen gleichzeitig bearbeiten.

Nachteile

  1. Der Einsatz einer zentralen Datenqualitäts-Engine ist technisch vergleichsweise komplexer. Und da alle Daten diesen Weg durchlaufen, haben sie eine große Wirkung und lassen keine Lücken für Fehler.
  2. Dieser Ansatz erfordert möglicherweise spezielle Hardware für eine schnelle und sofortige Berechnung und eine genaue Ergebnisgenerierung.
  3. Die Implementierung einer Echtzeit-Validierung der Datenqualität kann mehr technisches und fachliches Know-how erfordern und ein Überdenken der gesamten Datenverwaltungsarchitektur erforderlich machen. Dies macht die Umsetzung wahrscheinlich risikoreicher und komplexer.

Was ist zu wählen: geplante oder Echtzeit-Validierung der Datenqualität?

Wie immer lautet die kurze Antwort auf diese Frage: Es kommt darauf an.

Zu diesen abhängigen Faktoren gehören unter anderem:

  1. Ihre Regeln und Anforderungen an die Datenqualität,
  2. Die Häufigkeit, mit der Ihre Geschäftsabläufe neue oder aktualisierte Daten abfragen,
  3. Wie viel Mühe, Zeit und Kosten Sie zu investieren bereit sind,
  4. Das Ausmaß der Auswirkungen, die Ihr Unternehmen bei der Umsetzung eines der beiden Ansätze verkraften kann.

Das Beste aus beiden Welten

Manchmal verwenden Organisationen beide Ansätze gleichzeitig. Dies kann auf drei Arten geschehen:

  1. Entweder werden die Daten zwischen den beiden Ansätzen aufgeteilt (ein Teil wird mit dem geplanten Dienst verarbeitet, während der andere Teil in Echtzeit verarbeitet wird),
  2. Jeder Ansatz verarbeitet einen anderen Satz von Datenqualitätsfunktionen für dieselben Daten (Datenbereinigung und -standardisierung werden in Echtzeit ausgeführt und komplexe Techniken wie Fuzzy Matching, Datendeduplizierung oder Merge Purge werden im Batch-Verfahren zu einem geplanten Zeitpunkt ausgeführt), oder
  3. Die Szenarien mit geringer Auswirkung (bei denen die Genauigkeit wichtiger ist als die Geschwindigkeit) werden mit einer planmäßigen Verarbeitung behandelt, und die Szenarien mit hoher Auswirkung (bei denen die Geschwindigkeit wichtiger ist als die Genauigkeit) können mit einer Echtzeit-Validierung behandelt werden.

Schlussfolgerung

Aufgrund der komplexen und kniffligen Natur von Datenqualitätsfehlern und deren möglichen Behebungen ist es zwingend erforderlich, kreative Ansätze zu wählen. Auf diese Weise wird sichergestellt, dass möglichst wenige Datenqualitätsfehler in das System gelangen und die meisten Daten sauber und standardisiert gehalten werden.

Für die Umsetzung kreativer Ansätze benötigen Sie kreative Werkzeuge und Technologien, die die Ausführung Ihrer Pläne unterstützen. In den meisten Fällen ist es jedoch weniger wahrscheinlich, dass ein einziges Tool oder ein einziger Anbieter Ihre Anforderungen an die Datenqualität (in allen Formen und Ausprägungen) erfüllen kann.

DataMatch Enterprise ist ein außergewöhnliches Tool, das seine branchenführenden und proprietären Datenqualitätsfunktionen in allen Formen anbietet:

  1. Eine Desktop-Anwendung mit einer intuitiven Benutzeroberfläche,
  2. einen Zeitplanungsdienst, der Datendateien in großen Mengen zu einem bestimmten Zeitpunkt verarbeitet, und
  3. Eine Datenqualitäts-Firewall oder eine API, die alle Funktionen für die Echtzeitverarbeitung zugänglich macht.

Um mehr darüber zu erfahren, wie DataMatch Enterprise helfen kann, können Sie noch heute eine kostenlose Testversion herunterladen oder eine Demo mit einem Experten buchen.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.