Blog

Ein Kurzleitfaden für Datenaufbereitungssoftware, Lösungen und bewährte Verfahren

Da Unternehmen Milliarden von Dollar in Big Data investieren, in der Hoffnung, Daten in Geld zu verwandeln, steigt der Bedarf an effizienter, benutzerfreundlicher Datenaufbereitungssoftware, -lösung und -tools gleichermaßen. Für Unternehmen wird es immer schwieriger, Daten mit herkömmlichen Methoden aufzubereiten, vor allem jetzt, da Big Data von Natur aus sehr komplex ist. Einfache ETL-Verfahren genügen nicht mehr. Daher ist ein leistungsstarkes, erstklassiges Datenvorbereitungstool erforderlich.

Dieser Kurzleitfaden zur Datenvorbereitung hilft Data-Science-Neulingen, Experten, Geschäftsanwendern und Entscheidungsträgern, den Datenvorbereitungsprozess besser zu verstehen, seine Bedeutung in unserem Geschäftsumfeld zu erkennen und herauszufinden, wie eine Best-in-Class-Lösung Ihnen helfen kann, Ihre Datenvorbereitungsziele zu erreichen. Wir werden ausführliche Antworten auf Fragen wie diese geben:

  • Was ist Datenvorbereitung?
  • Warum ist Datenvorbereitung wichtig?
  • Wie bereiten Sie die Daten vor?
  • Herausforderungen für den Datenaufbereitungsprozess
  • Die wichtigsten Vorteile der Datenvorbereitung
  • Bewährte Praktiken

Lasst uns eintauchen!

Was ist Datenvorbereitung?

Die Standarddefinition der Datenaufbereitung lautet:

„Der Prozess des Sammelns, Kombinierens, Strukturierens und Organisierens von Daten“.

Aber Datenaufbereitung im Zeitalter von Big Data ist mehr als nur die Organisation von Daten.

Es ist eine Notwendigkeit, die die Entscheidungsfindung fördert.

Dies ist eine Voraussetzung, um die 65 Milliarden Dollar an Investitionen in die Big Data-Analytik sinnvoll zu nutzen.

Es ist auch ein dringend benötigter neuer Ansatz für die Self-Service-Datenaufbereitung, der es den Geschäftsanwendern ermöglicht, ihre Daten für die beabsichtigte Verwendung zu optimieren.

In der Praxis ist die Datenvorbereitung ein Arbeitsablauf, der aus folgenden Elementen besteht:

  • Datenprofilierung: Bewertung Ihrer Daten, um die Art und das Ausmaß von Problemen zu erkennen, z. B. unstrukturierte Felder, fehlende Werte, falsch geschriebene Namen, übermäßige Tippfehler, Verwendung von nicht druckbaren Zeichen usw.
  • Datenbereinigung: Verwendung vordefinierter Geschäftsregeln zur Bereinigung unübersichtlicher Daten.
  • Daten-Deduplizierung: Duplikate sind ein schwerwiegendes Problem, das es zu lösen gilt. Während Sie unordentliche Daten verwalten können, sind es doppelte Daten, die unvorhergesehenes Unheil anrichten können.
  • Datenvalidierung: Der Prozess der Verifizierung oder Validierung Ihrer Daten anhand von Behördenstandards. Zum Beispiel der Abgleich von Adressdaten mit denen des USPS.
  • Datenumwandlung: Umwandlung ungeordneter Rohdaten in brauchbare, saubere Daten.
  • Datenzusammenführung und Überlebensfähigkeit: Zusammenführung mehrerer Datenquellen zur Erstellung endgültiger Stammsätze.

Das folgende Bild ist ein Beispiel für die Art von fehlerhaften Daten, für die Sie eine Datenaufbereitungslösung benötigen, um sie zu beseitigen.

Jede dieser Teiltätigkeiten ist ein komplexer Prozess, der Tage und Monate in Anspruch nimmt. Dies ist einer der Gründe, warum Datenwissenschaftler am Ende 80 % ihrer Zeit damit verbringen, Daten zu reparieren. Trotz massiver Investitionen in die Big-Data-Analytik haben die Unternehmen immer noch Schwierigkeiten, ihre Daten aufzubereiten.

Es ist zu beachten, dass es bei der Datenaufbereitung nicht einfach darum geht, Ihre Datensätze mit einem Tool oder einer Software zu bearbeiten.

Theoretisch umfasst die Datenaufbereitung Folgendes:

  • Identifizierung eines Problems
  • Anerkennen des Problems
  • Verstehen, wie sich das Problem auf das Geschäft auswirkt
  • Bewertung eines organisatorischen Ansatzes zur Datenqualität
  • Analyse der aktuellen Datenstrategie
  • Umsetzung eines Datenqualitätsplans
  • Verlagerung der Abhängigkeiten vom IT-Team und Befähigung der Geschäftsanwender

Bei unserer Arbeit mit Fortune-500-Unternehmen haben wir festgestellt, dass Unternehmen, die sich der zugrundeliegenden geschäftlichen Probleme im Zusammenhang mit Daten bewusst sind, bei der Datenaufbereitung wahrscheinlich erfolgreich sein werden. Diese Organisationen kennen das Problem und seine Auswirkungen auf das Unternehmen. Andererseits war es für Organisationen, die die Probleme mit ihren Daten nicht bewerteten, verstanden und anerkannten, schwierig, die Datenaufbereitung erfolgreich durchzuführen.

merge purge software

Hier finden Sie einen Überblick über den Datenaufbereitungsprozess in DataMatch Enterprise, dem Flaggschiff der Datenaufbereitung von Data Ladder.

Den Bedarf erkennen und die richtigen Geschäftsfragen stellen

So seltsam es klingt, aber die Datenaufbereitung beginnt nicht mit den Daten, sondern mit der Identifizierung eines Bedarfs für die Entscheidungsfindung im Unternehmen. Es beginnt damit, zu verstehen, wie sich ein bestimmter Datensatz auf Marketingstrategien, Ressourceneinsatz, Produktvertrieb und jeden anderen Bereich der Unternehmensabläufe auswirkt. Informierte und korrekte Geschäftsentscheidungen zu treffen, ist das wichtigste Bedürfnis eines Unternehmens, das auf Informationen angewiesen ist – wenn das Unternehmen keinen Zugang zu diesen Informationen hat, ist es dem Untergang geweiht.

Wenn es darum geht, die Fragen zu stellen, muss man allerdings präzise sein. Es gibt keinen pauschalen Ansatz für die Datenaufbereitung oder Datenqualität.

Sie können nicht eine Million Kundendatensätze korrigieren, nur weil Sie saubere Daten haben wollen. Die Kosten für die Datenermittlung und -aufbereitung sollten nicht höher sein als der gewonnene Wert, sonst ist der Aufwand nicht rentabel.

Es muss ein Ziel geben.

Das Ziel muss mit Rentabilität und Effizienz verbunden sein.

Es muss eine Bewertung der Daten und ihrer Eignung zur Unterstützung dieses Ziels vorgenommen werden.

Das Ziel sollte helfen, geschäftliche Fragen zu beantworten wie:

  • Verdienen wir mit diesem Ziel Geld? (Ein neues Produkt, eine neue Werbeaktion, ein neues Marketingziel usw.)
  • Hilft uns dieses Ziel bei der Kundenzufriedenheit oder sogar bei der Kundengewinnung und -bindung?
  • Warum versuchen wir, etwas zu erreichen?
  • Wie werden wir den Erfolg oder Misserfolg eines Projekts messen?
  • Über welche Instrumente oder Ressourcen verfügen wir, um dieses Ziel zu erreichen?
  • Welche zusätzlichen Instrumente oder Ressourcen werden wir benötigen und warum?
  • Wie hoch werden die Kosten für diese Instrumente sein und welchen ROI erwarten wir von diesen Ausgaben?

Als Faustregel gilt: Beginnen Sie mit einer geschäftlichen Frage, stellen Sie eine Hypothese auf, führen Sie eine gründliche Analyse der Auswirkungen Ihrer Entscheidungen durch und stellen Sie schließlich die Schlussfolgerungen für Ihre geschäftliche Gleichung auf.

Verstehen Sie Ihre Daten

Bevor Sie überhaupt mit der Umsetzung einer Geschäftsstrategie beginnen können, müssen Sie Ihre Daten verstehen.

  • Haben Sie rohe, unbehandelte Daten?
  • Haben Sie technisch korrekte, aber doppelte Daten?
  • Haben Sie saubere, verwertbare Daten, mit denen Sie arbeiten können?
  • Verfügen Sie über isolierte Daten aus unterschiedlichen Quellen?
  • Haben Sie eine Auswahl der Daten, die Sie für dieses Ziel benötigen?
  • Müssen Sie große Datenquellen wie soziale Medien, Transaktions- oder Verhaltensdaten integrieren, um eine einheitliche Sicht auf Ihre Kunden zu erhalten?
  • Verfügen Sie über eine robuste Datenaufbereitungssoftware, mit der Sie Ihre Daten in Ihrer Cloud- oder Serverdomäne bearbeiten können?

Es ist wichtig, drei allgemeine Herausforderungen zu erwähnen, mit denen Unternehmen in der Regel konfrontiert sind, wenn es darum geht, ihre Daten für die beabsichtigte Verwendung vorzubereiten. Diese Probleme können durch eine Datenaufbereitungslösung behoben werden, allerdings müssen Sie den Umfang der Tätigkeit und die Art der Schulung oder Lernkurve, die Sie für die Verwendung der Software benötigen, ermitteln. Viele Unternehmen geben Millionen aus, nur um geschulte Spezialisten an einer Datenaufbereitungssoftware arbeiten zu lassen. Daher sollten Sie sich sicher sein, was Sie brauchen, bevor Sie einen hohen Betrag in eine beliebte Datenqualitätslösung investieren.

Warum ist Datenvorbereitung wichtig?

Obwohl alle über die Datenaufbereitung reden, tut niemand etwas dafür. Nachdem Sie Ihre Ziele oder die zu lösenden Probleme ermittelt haben, ist die Datenaufbereitung der Schlüssel zur Lösung des Problems. Es ist leicht der Unterschied zwischen Erfolg und Misserfolg, zwischen verwertbaren Erkenntnissen und unverständlichem Text, zwischen einer fundierten Entscheidung und nutzlosen Annahmen oder Theorien.

Ein Kunde musste beispielsweise seine Daten nutzen, um eine Strategie zur Kundenpersonalisierung einzuführen. Das Unternehmen betrachtete sich selbst als datengesteuert, weil es Datenseen eingerichtet hatte, um Haushaltsdaten seiner Kunden zu speichern, und diese Daten nun nutzen wollte, um Personalisierungsdienste anzubieten. Sie waren sich zwar der Probleme mit den Rohdaten bewusst, waren aber nicht darauf vorbereitet, mit der übermäßigen Anzahl von Duplikaten und Datenmüll fertig zu werden, die fast 40 % ihrer Daten unbrauchbar machten. Bevor sie ihre Personalisierungsziele in Angriff nehmen konnten, mussten sie zunächst ihre Daten aufbereiten und bereinigen.

Unternehmen haben zwar riesige Data Lakes, aber die werden irgendwann zu Datenmüllhalden, weil der ursprüngliche Gedanke war: „Mehr Daten sind besser“. Dieser Ansatz funktioniert nicht mehr. Sie benötigen die Datenaufbereitung und ihre Teilaktivitäten, um sicherzustellen, dass Sie mit brauchbaren Daten arbeiten können.

Andernfalls könnte der Mangel an sauberen Daten dazu führen:

  • Operative Ineffizienz: Teams und Prozesse werden beeinträchtigt, da sie nicht über den richtigen Datensatz verfügen, mit dem sie arbeiten und zur Erreichung des Ziels beitragen können.
  • Schlechte Kundenzufriedenheit: Wenn ein Unternehmen Daten falsch verwaltet, kann dies zu peinlichen Fehlern und verpassten Gelegenheiten führen, was wiederum eine schlechte Kundenzufriedenheit zur Folge hat.
  • Unnötige Kosten: Die Folgen schlecht verwalteter Daten führen zu allen möglichen Kosten, die Ihrem Unternehmen schaden könnten – Geldstrafen, Datensicherheitsprobleme, Strafen für die Einhaltung von Datenschutzbestimmungen, Rücksendungen, verlorene Kunden usw.
  • Gebremstes Wachstum: Der Markt da draußen ist dynamisch. Wenn Sie nicht auf Daten setzen, können Sie nicht wachsen. Futuristische Unternehmen konzentrieren sich auf die Optimierung ihrer Daten.
  • Unzureichende Erkenntnisse: Fast jedes Unternehmen beschäftigt sich in irgendeiner Form mit der Datenmodellierung für Erkenntnisse und Analysen. Ungenaue Daten, die keinen Datenaufbereitungsprozess durchlaufen haben, sind die Ursache für fehlerhafte Erkenntnisse – die Folgen kennen wir nur zu gut.

In ihrer einfachsten Form hilft uns die Datenaufbereitung dabei, die Informationen in den Daten zu verstehen, die wir nicht verstehen können, wenn wir sie nur betrachten. Das ist alles. Und das ist der wichtigste Zweck dieser Aktivität.

Wie bereiten Sie die Daten vor?

Die Datenaufbereitung war weitgehend eine manuelle Arbeit. Nachdem ein Datensatz zur Verwendung ausgewählt wurde, durchläuft er eine Datenvorbereitungssoftware, in der spezifische Operationen auf die Dateien angewendet werden. Einer dieser Vorgänge kann zum Beispiel das manuelle Entfernen von Textdaten in einem Zahlenfeld sein, für das Formeln oder eine Kombination von Funktionen verwendet werden sollen. Während dies für kleine und nicht so komplexe Datensätze funktionierte, finden es Datenwissenschaftler heute, da das Datenvolumen und die Komplexität zunehmen, äußerst frustrierend, einen Großteil ihrer Zeit mit der Aufbereitung dieser Daten zu verbringen.

Wahrscheinlich verwendet Ihr Unternehmen bereits einen ETL-Prozess, um Daten sinnvoll zu nutzen. ETL ist jedoch stark eingeschränkt und ermöglicht es den Geschäftsanwendern nicht, ihre Daten effizient zu nutzen. Lesen Sie den folgenden Beitrag, um den Unterschied zwischen ETL und Datenaufbereitung zu erfahren.

Aus diesem Grund hat die Zahl der Softwareanbieter im Laufe der Jahre zugenommen. Die meisten dieser Tools bieten jetzt eine Selbstbedienungsfunktion, mit der auch Geschäftsanwender in den Datenaufbereitungsprozess einbezogen werden können.

Ein Tool wie DataMatch Enterprise beispielsweise vereinfacht den Datenaufbereitungsprozess, indem es den Benutzer durch einen Arbeitsablauf führt, der es ihm ermöglicht, Daten problemlos zu bereinigen, abzuleiten und zusammenzuführen – ein Prozess, der normalerweise Tage und Monate in Anspruch nimmt, dauert nun nur noch ein paar Minuten.

Datenaufbereitungstools erleichtern auch den Umgang mit inkonsistenten, in Silos gespeicherten Daten. Vor einigen Jahrzehnten hätte man die Daten in den einzelnen Systemen fixieren und versuchen müssen, Teile dieser Daten manuell zusammenzuführen, ohne die benötigten Analysen zu erhalten.

Jetzt können Sie problemlos eine unbegrenzte Anzahl von Datensätzen integrieren, zusammenführen, bereinigen und nach Belieben aufbereiten. Es ist wie eine Drag-and-Drop-Aktivität, die nur sehr begrenzte technische Kenntnisse erfordert.

Herausforderungen für den Datenaufbereitungsprozess:

Die Datenaufbereitung wurde zwar vereinfacht, aber die Herausforderungen bei der Datenaufbereitung sind dieselben geblieben, wenn nicht sogar noch komplexer und mühsamer. Einige der wichtigsten Herausforderungen, denen sich Unternehmen stellen müssen, sind:

Daten in Silos und aus unterschiedlichen Quellen: Unternehmen wollen jetzt einheitliche Kundenansichten erstellen, um personalisierte Erlebnisse zu schaffen oder einen Überblick über versteckte Möglichkeiten zu erhalten. So wollte beispielsweise ein Einzelhändler Daten aus verschiedenen Datenquellen konsolidieren, um seinen Kunden aus verschiedenen europäischen Regionen ein reibungsloses digitales Erlebnis zu bieten.

Die Konsolidierung von Daten aus verschiedenen Quellen ist jedoch kein leichtes Unterfangen. Die in unterschiedlichen Quellen gespeicherten Daten unterscheiden sich in Struktur, Form und Zweck. Noch wichtiger ist, dass die Datenfehler kulturell bedingt sind. Italienische Namen wurden zum Beispiel häufiger falsch geschrieben als amerikanische Namen. Es ist sehr zeitaufwendig, diese Daten aufzubereiten und für den Einzelhändler nutzbar zu machen. Selbst wenn ein Datenaufbereitungstool verwendet wird, ist immer noch ein gewisser manueller Aufwand erforderlich, um die Namen aus verschiedenen Kulturen zu überprüfen und sicherzustellen, dass keine Fehler gemacht werden.

Doppelte Daten: Fast alle Unternehmen, mit denen wir zusammengearbeitet haben, berichteten, dass die Duplizierung von Daten ein Haupthindernis für den Erfolg ihrer Datenaufbereitung darstellt. Es gibt zwar Dutzende von Datenvorbereitungstools, mit denen Sie Datenanomalien beheben können, aber nur sehr wenige sind in der Lage, doppelte Daten mit einer 100-prozentigen Übereinstimmungsrate zu korrigieren. Tatsächlich ist der Datenabgleich eine gefragte Lösung, denn nur sehr wenige Anbieter schaffen es, eine Trefferquote von 95 % zu erreichen.

Ein staatliches Institut, mit dem wir zusammengearbeitet haben, entdeckte, dass die hauseigene Lösung zur Datendeduplizierung nur die Hälfte der Aufgabe der Entfernung von Duplikaten erfüllen konnte. Durch den Einsatz von DataMatch konnten weitere 40 % der doppelten Daten entfernt werden.

Inkonsistente Daten: Auch bekannt als schmutzige Daten. Die Qualität der Daten ist immer zweifelhaft, solange es Menschen sind, die Kundennamen und -adressen, Produktcodes und Preise eintippen. Bei manuellen Methoden kommt es zwangsläufig zu Fehlern, die nur mit erheblichem manuellem Aufwand zu beheben sind. Noch komplizierter und unübersichtlicher wird es, wenn Sie Unternehmensdaten mit externen Daten aus Drittquellen kombinieren müssen. So sind beispielsweise die Daten eines Kunden in den sozialen Medien alles andere als konsistent. Einige verwenden Abkürzungen in ihren Namen, andere einen anderen Namen… die Liste ist endlos.

Diese Probleme haben den Aufstieg von Self-Service- und Cloud-basierter Datenaufbereitungssoftware vorangetrieben, die es den Benutzern ermöglicht, Daten aus verschiedenen Quellen zu integrieren, Geschäftsregeln in Übereinstimmung mit ihren Datenanforderungen zu erstellen und IT- und Geschäftsbenutzer zusammenzubringen, um Probleme mit der Datenqualität zu lösen.

Best Practices für die Datenaufbereitung

Jetzt, da sich die Welt auf die Ziele von KI, maschinellem Lernen und Business Intelligence zubewegt, muss sie sich auf die Aufbereitung von Daten konzentrieren, um diese Ziele zu erreichen. Die Verwendung einer Software oder eines Tools zur Datenaufbereitung ist jedoch nur ein Teil der Lösung. Sie müssen zusätzliche Verfahren für die Datenaufbereitung einführen, die Folgendes umfassen müssen:

  1. Datenqualität zur Priorität machen: Die Probleme und Herausforderungen bei der Datenaufbereitung sind darauf zurückzuführen, dass der Schwerpunkt nicht auf der Datenqualität liegt. Unternehmen reden zwar über Datenqualität, aber sie machen sie nicht zu einem organisatorischen Schwerpunkt. Sie werden die gleichen Fehler immer wieder beheben, wenn Sie nicht die Ursache des Problems beseitigen. Beispielsweise beeinträchtigt Ihr Vertriebsteam die Datenqualität, da es ungenaue Informationen eingibt, wichtige Informationen auslässt oder bei der Dateneingabe menschliche Fehler begeht. Um dies zu verhindern, muss Ihr Team in Sachen Datenqualität geschult werden, damit es die Auswirkungen eines Tippfehlers oder fehlender Informationen auf nachgelagerte Prozesse versteht.
  2. Die IT-Abteilung kann den Geschäftsanwendern mit Schulungs- und Lernseminaren helfen: Dies ist ein guter Weg, um die Kluft zwischen IT und Geschäftsanwendern zu überbrücken. Die IT-Abteilung kann Schulungen und Lerneinheiten zur Datenqualität planen, um den Geschäftsanwendern die Bedeutung von Datenqualität und Datenaufbereitung zu vermitteln. In dem Maße, in dem sich die Geschäftsanwender mit dem Problem vertraut machen, können autorisierte Benutzer mit den richtigen Datenaufbereitungstools ausgestattet werden, um ihre Daten für die geschäftliche Nutzung vorzubereiten, ohne von der IT-Abteilung abhängig zu sein.
  3. Folgen Sie dem Datenaufbereitungsprozess: Wenn Sie eine Datenaufbereitungssoftware wie DataMatch Enterprise verwenden, durchlaufen Sie einen schrittweisen Prozess, der Ihre Daten in 8 Modulen vom Roh- zum Endzustand bringt. Wenn Sie kein Tool verwenden und es selbst implementieren, stellen Sie sicher, dass Sie den unten angegebenen Arbeitsablauf befolgen

Die Aufgabe ist gewaltig. Aber jede kluge Organisation weiß, dass das Ziel nicht eine 100%ige Perfektion oder ein pauschaler Ansatz ist. Ziel ist es, eine Datenqualitätskultur und einen Ansatz zu gewährleisten, bei dem Probleme vermieden werden, bevor sie zu einem großen Ärgernis werden.

Schlussfolgerung

Die Datenvorbereitung ist nur ein Teil des ersten Schritts des Datenmanagements, und obwohl es leistungsstarke Datenvorbereitungstools gibt, die den Großteil der harten Arbeit erledigen, benötigen Unternehmen immer noch Menschen, die das Ergebnis überprüfen, validieren und sicherstellen, dass es den Wünschen entspricht. Es ist wichtig zu erkennen, dass Werkzeuge nur so intelligent sind wie die Menschen, die sie benutzen. Da die Zukunft in KI und ML liegt, ist es unerlässlich, dass Unternehmen einen gezielten Ansatz für die Datenaufbereitung verfolgen und ihre Daten in einen Treibstoff verwandeln, der das Unternehmen voranbringt.

Wie die besten Fuzzy-Matching-Lösungen funktionieren: Kombination von bewährten und eigenen Algorithmen


Herunterladen

Starten Sie noch heute Ihren kostenlosen Test

Oops! Wir konnten dein Formular nicht lokalisieren.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.