Blog

Wie Datenqualität eine wichtige Herausforderung bei der Data Lake-Ingestion ist und was Sie tun können, damit Ihr Data Lake-Projekt ein Erfolg wird

Data Lakes wurden als Lösung für die Speicherung unstrukturierter Daten entwickelt – eine Alternative zur restriktiven Natur von Data Warehouses. Diese Erleichterung bringt jedoch eine Reihe einzigartiger Herausforderungen mit sich, die von den Unternehmen nur schwer zu bewältigen sind.

Tatsächlich sind einige Herausforderungen des Data Lake so schwer zu bewältigen, dass Unternehmen die Idee, einen Data Lake zu unterhalten, aufgeben.

Führende Analystenfirmen geben schon seit einiger Zeit Ausfallraten von 85 % für Data Lakes an. (Teradata)

Worin bestehen diese besonderen Herausforderungen und gibt es eine Möglichkeit für Unternehmen, ihren Data Lake zu pflegen und den Zweck zu erfüllen, für den er konzipiert wurde?

Lassen Sie uns mehr entdecken.

Warum Data Lakes und nicht Data Warehouses?

Eine Organisation auf Unternehmensebene ist mit mindestens 464 Anwendungen verbunden. Die Menge an Informationen, die von all diesen Anwendungen hereinströmt, muss irgendwo gespeichert werden. Wir sprechen über alle Arten von strukturierten und halbstrukturierten Daten, die über verschiedene Datenquellen gesammelt werden: mobile Anwendungen, Webanwendungen, Aktivitätsprotokolle, Telefonprotokolle, soziale Medien und Hunderte anderer Quellen.

Alle diese Daten zusammen bilden die Business Intelligence, die Unternehmen benötigen, um strategische Geschäftsentscheidungen zu treffen.

Data Warehouses, die traditionellen Methoden zur Speicherung von Unternehmensdaten, erfordern eine Strukturierung der Daten. Sie können die Daten nicht in ein Data Warehouse einspeisen, ohne sie zu sortieren oder an der definierten Struktur auszurichten.

Mit Data Lakes wurde diese Einschränkung überwunden. Mit der Implementierung von Datenpipelines konnten alle Datenquellen in den See transportiert und dort aufbewahrt werden, bis das Unternehmen Daten für Analysen, Berichte und BI benötigte.

Data Lakes lösten zwar das Problem der Datenhaltung, stellten aber auch eine große Herausforderung dar – die der Datenqualität.

Da die Daten einfach in das System eingespeist werden, scheint es für die Analysten keine Möglichkeit zu geben, die Datenqualität zu bestimmen. Eine Erstuntersuchung wurde nicht durchgeführt. Darüber hinaus ist die größte Herausforderung angesichts der jüngsten Vorschriften der Datenschutz und die Einhaltung der Datenschutzbestimmungen. Ohne jemanden, der für die Qualität der Daten verantwortlich ist, sind Unternehmen beim Umgang mit Rohdaten aufgeschmissen.

Ermöglicht die Aufnahme von Daten.

Wie hilft Data Ingestion bei der Bewältigung von Data Lake-Herausforderungen?

Die Dateneingabe ist die Schicht zwischen den Datenquellen und dem Data Lake selbst. Diese Schicht wurde eingeführt, um auf Rohdaten aus Datenquellen zuzugreifen, sie zu optimieren und sie dann in den Data Lake einzuspeisen.

Dennoch ist es überraschend zu sehen, dass die Dateneingabe erst im Nachhinein oder nach dem Einfügen der Daten in den See erfolgt. Tatsächlich verpassen die meisten Unternehmen den Prozess der Datenaufnahme völlig, da sie die Komplexität der Übertragung von Daten aus Datenquellen in den Data Lake unterschätzen. Erst in einem kritischen Moment, in dem sie Daten benötigen, wird ihnen bewusst, dass sie vor einer großen Herausforderung stehen.

Wenn man es genau betrachtet, besteht der Zweck eines Data Lake darin, Daten zu speichern, die später verwendet werden können, ohne sich um ihre Struktur zu kümmern – aber das bedeutet nicht, dass sie buchstäblich in das System eingespeist werden, ohne sie zu bereinigen oder sicherzustellen, dass sie einen Mehrwert bieten.

Wenn die Daten nicht verwaltet werden, wird der Datensee zu einem Datensumpf, in dem unübersichtliche Daten in einem Repository liegen, die weder verwendet noch analysiert werden können. Dies widerspricht dem Zweck eines Data Lakes und ist somit die Hauptursache für das Scheitern der meisten Data-Lake-Projekte.

Lassen Sie uns das wiederholen:

Die Übernahme ist ein geplanter Prozess, der separat durchgeführt werden muss, bevor die Daten in das System eingegeben werden. Dieser geplante Prozess muss das Ziel verfolgen, im Laufe der Zeit über vollständige, genaue und konsistente Daten zu verfügen.

Beachten Sie, dass die Datenaufnahme nicht gleichbedeutend ist mit der Perfektionierung der Rohdaten. Es ermöglicht einfach die Pflege einer grundlegenden Organisation, bei der Duplikate entfernt und unvollständige oder ungültige Informationen hervorgehoben werden, so dass jeder Datensatz sofort für eine Analyse zur Verfügung steht.

Funktionen zur Datenübernahme

Obwohl die meisten Data Lakes heute über eine Dateneingabe verfügen, werden wichtige Funktionen oft übersehen. Hier sind drei wichtige Funktionen der Datenaufnahme, die implementiert werden müssen, damit ein Data Lake über brauchbare, wertvolle Daten verfügt.

  1. Der Prozess der Datenerfassung: Der Hauptzweck der Datenaufnahme besteht darin, Daten aus verschiedenen Quellen in verschiedenen Formaten – strukturiert, unstrukturiert, halbstrukturiert oder multistrukturiert – zu sammeln, sie in Form von Datenströmen oder Stapeln verfügbar zu machen und sie in den Data Lake zu übertragen.
  2. Der Filtrationsprozess: In dieser frühen Phase des Datenlebenszyklus durchlaufen die Daten einen grundlegenden Filter- und Bereinigungsprozess, bei dem Parsing- und Deduplizierungsaktivitäten durchgeführt werden. Auch andere komplexe Vorgänge wie das Erkennen und Entfernen ungültiger oder ungültiger Datenwerte können mit Skripten durchgeführt werden.
  3. Der Transportprozess: Der Transport der Daten in ihre jeweiligen Speicher innerhalb des Data Lake ist ein Prozess, der von der Klarheit der Routing-Regeln und den eingerichteten Automatisierungsverfahren abhängt.

Batch vs. Streaming Ingestion

Es gibt zwei Arten von Ingestionsmodellen, und beide hängen von den Anforderungen oder Erwartungen ab, die Unternehmen an ihre Daten stellen.

Stapelverarbeitung: Dies ist die häufigste Art der Datenaufnahme, bei der Gruppen von Quelldaten regelmäßig gesammelt und an das Zielsystem gesendet werden. Es könnte ein einfacher Zeitplan erstellt werden, in dem die Quelldaten nach einer logischen Reihenfolge oder bestimmten Bedingungen gruppiert werden. Die Stapelverarbeitung ist in der Regel durch Automatisierung einfacher zu handhaben und zudem ein kostengünstiges Modell.

Streaming: Hierbei handelt es sich um eine Echtzeitverarbeitung, die keine Gruppierung vorsieht. Die Daten werden geladen, sobald sie erscheinen und von der Ingestion-Schicht erkannt werden. Dies ist zwar ein teures und komplexeres Modell, aber für Unternehmen, die sofortige, kontinuierliche und aktualisierte Daten benötigen, funktioniert es gut.

Data Lake Ingestion-Herausforderungen

Während die Datenaufnahme versucht, die Herausforderungen des Data Lake zu lösen, ist sie nicht ohne eine Reihe von Herausforderungen. Bestimmte Schwierigkeiten können sich auf die Ingestion-Ebene auswirken, was wiederum die Leistung des Data Lake beeinträchtigt.

Werfen wir einen Blick auf einige der wichtigsten Herausforderungen.

Schnelle Bewältigung der eingehenden Datenmenge

Die Datenmengen sind explodiert, und mit der zunehmenden Vernetzung und Integration des globalen Ökosystems werden die Datenmengen exponentiell ansteigen. Außerdem entwickeln sich die Datenquellen selbst ständig weiter, was bedeutet, dass Data Lakes und Dateneingabeebenen robust genug sein müssen, um diese Datenmenge und -vielfalt aufzunehmen. Diese Herausforderung ist noch schwieriger zu bewältigen, wenn Unternehmen einen Echtzeit-Dateningestionsprozess implementieren, der eine schnelle Aktualisierung und Ingestion der Daten erfordert.

Da es sich bei der Datenerfassung und den Data Lakes um relativ neue Technologien handelt, müssen sie erst noch eine rasante Geschwindigkeit erreichen. Je nach Anwendung kann die Verarbeitung von Echtzeitdaten bis zu 10 Minuten für jede Aktualisierung dauern.

Erfüllung der neuen Richtlinien zur Dateneinhaltung

Die Einhaltung gesetzlicher Datenvorschriften in Ländern rund um den Globus hat es für Unternehmen schwierig gemacht, ihre Daten entsprechend den gesetzlichen Vorschriften zu sortieren. Unternehmen müssen die europäische Datenschutz-Grundverordnung (GDPR) sowie Dutzende anderer Compliance-Vorschriften in den USA einhalten. Daher müssen die Daten auf der Ingestionsebene nach diesen Vorschriften sortiert werden, um spätere Probleme zu vermeiden. Dies erfordert eine ganzheitliche Planung der Dateneingabe.

Bereinigung von Daten für die Datenaufbereitung

Dies ist eine häufig übersehene Herausforderung von Data Lakes. Irgendwie geht man davon aus, dass der Bereinigungsprozess nur dann stattfinden sollte, wenn die Daten für die Analyse benötigt werden. Dieser Ansatz führt nicht nur zu erheblichen Engpässen, sondern setzt das Unternehmen auch den beiden anderen oben genannten Herausforderungen des Datenschutzes und der Datensicherheit aus.

Das Bereinigen von Daten für die Datenaufbereitung muss idealerweise beginnen, bevor die Daten in den See eingespeist werden. Die Durchführung der grundlegenden Bereinigung erspart es dem Datenteam, seine Zeit mit dem Versuch zu verschwenden, aus den Rohdaten einen Sinn zu machen. In diesem Stadium sollten die Rohdaten auf Duplikate, unvollständige und ungültige Felder usw. gefiltert werden. Danach können die Analysten weitere Anpassungen oder Optimierungen für den beabsichtigten Zweck vornehmen.

Datenqualität im Data Lake Ingestion

Ob in der Phase der Datenaufnahme oder der Datentransformation, eine Datenqualitätslösung ist erforderlich, um Daten zu verarbeiten, bevor sie für Analysen verwendet werden. Wenn wir über Datenqualität sprechen, geht es in erster Linie um Folgendes:

  • Bereinigung der Rohdaten von Tippfehlern, strukturellen Problemen wie Rechtschreibung, Groß- und Kleinschreibung usw.
  • Ungültige, unvollständige, nichtige oder ungültige Felder
  • Und vor allem: doppelte Daten, die zu einem großen Engpass werden

Für die Datenbereinigung benötigen Sie ein Datenqualitätstool, mit dem Sie Rohdaten direkt aus Ihrer Datenquelle verarbeiten können.

DataMatch Enterprise von Data Ladder ist ein leistungsfähiges Tool, das zum Bereinigen, Abgleichen und Deduplizieren von Rohdaten verwendet werden kann. Es ermöglicht die Integration von mehr als 150 Anwendungen und Datenbanken, was bedeutet, dass Sie es als Tool zur Erfassung Ihrer Daten verwenden können, bevor diese in den Data Lake übertragen werden.

Es kann auch in der Phase der Datentransformation eingesetzt werden, wenn Sie tiefer in die Problematik Ihrer Daten eindringen wollen, z. B. bei der Erstellung von Datenprofilen, der Überprüfung und Validierung von Adressen usw.

Das Tool wird als Vor-Ort-Lösung bereitgestellt, die Sie auf Ihrem Desktop- oder Cloud-Server verwenden können. Pluspunkt? Dieses Tool führt sowohl Stapelverarbeitung als auch Echtzeitverarbeitung durch und ermöglicht es Ihnen außerdem, zukünftige Prozesse zu planen.

Die Quintessenz

Es ist wichtig, eine geeignete Ingestion-Infrastruktur zu implementieren, die es dem Data Lake ermöglicht, vollständige, zeitlich gut abgestimmte und verbrauchsfertige Daten zu speichern. Im Gegensatz zu einem Data Warehouse zeichnen sich Data Lakes dadurch aus, dass sie die Verfügbarkeit großer Mengen kohärenter Daten nutzen, um die Entscheidungsanalyse in Echtzeit zu verbessern. Sie ist nicht nur in fortgeschrittenen prädiktiven analytischen Anwendungen nützlich, sondern kann auch in der zuverlässigen organisatorischen Berichterstattung produktiv sein, insbesondere wenn sie verschiedene Datendesigns enthält.

Damit Data Lakes jedoch funktionieren, muss die Datenaufnahme als separate Aktivität geplant werden und die Datenqualität muss das Hauptziel sein. Wenn die Datenqualität ignoriert wird, führt dies zu einer Reihe von Problemen, die sich auf die gesamte Pipeline auswirken – von der Datenerfassung bis zum Endprodukt.

Möchten Sie mehr darüber erfahren, wie wir Sie bei der Dateneingabe unterstützen können? Setzen Sie sich mit uns in Verbindung und lassen Sie sich von unserem Lösungsarchitekten durch die Reise führen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.