Blog

Leitfaden zur Datenstandardisierung: Arten, Vorteile und Verfahren

Wenn Sie Daten aus verschiedenen Anwendungen im gesamten Unternehmen abrufen, erwarten Sie eine einheitliche Definition und ein einheitliches Format der gleichen Informationen. In der Realität ist dies jedoch selten der Fall. Die Unterschiede in den Datensätzen – über verschiedene Anwendungen hinweg und sogar innerhalb derselben Anwendung – machen es fast unmöglich, Daten für jeden Zweck zu nutzen – von Routinevorgängen bis hin zu Business Intelligence.

Ein durchschnittliches Unternehmen nutzt heute mehrere SaaS- und interne Anwendungen. Jedes System hat seine eigenen Anforderungen, Einschränkungen und Begrenzungen. Aus diesem Grund sind bei Daten, die in verschiedenen Anwendungen gehostet werden, Diskrepanzen vorprogrammiert. Und wenn wir Rechtschreibfehler, Abkürzungen, Spitznamen und Tippfehler in Betracht ziehen, stellen wir fest, dass ein und derselbe Wert Hunderte von verschiedenen Darstellungen haben kann. An dieser Stelle ist es zwingend erforderlich, Daten zu standardisieren, um sie für jeden beabsichtigten Zweck nutzbar zu machen.

In diesem Blog erfahren Sie alles über die Datenstandardisierung: was sie ist, warum und wann Sie sie brauchen und wie Sie sie durchführen können. Fangen wir an.

Was ist Datenstandardisierung?

In der Datenwelt bezieht sich ein Standard auf ein Format oder eine Darstellung, der jeder Wert eines bestimmten Bereichs entsprechen muss. Standardisierung von Daten bedeutet also:

Der Prozess der Umwandlung einer falschen oder inakzeptablen Darstellung von Daten in eine akzeptable Form.

Der einfachste Weg, um herauszufinden, was „akzeptabel“ ist, besteht darin, Ihre geschäftlichen Anforderungen zu verstehen. Im Idealfall müssen Unternehmen sicherstellen, dass das Datenmodell, das von den meisten – wenn nicht sogar allen – Anwendungen verwendet wird, ihren Geschäftsanforderungen entspricht. Der beste Weg zur Standardisierung von Daten ist die Anpassung der Datendarstellung, -struktur und -definition an die organisatorischen Anforderungen.

Arten und Beispiele von Datenstandardisierungsfehlern

Im Folgenden werden einige Beispiele dafür angeführt, wie nicht standardisierte Daten in das System gelangen können:

  1. Die Telefonnummer des Kunden wird in einem System als Zeichenkette gespeichert, während sie in einem anderen System nur als 8-stellige Zahl zulässig ist, was zu Inkonsistenzen beim Datentyp führt.
  2. Der Kundenname wird in einem System als ein einziges Feld gespeichert, während er in einem anderen System in drei separaten Feldern für Vor-, Mittel- und Nachnamen erfasst wird, was zu struktureller Inkonsistenz führt.
  3. Das Geburtsdatum des Kunden hat in einem System das Format MM/TT/JJJ, während es in einem anderen System das Format Monat-Tag-Jahr hat, was zu Formatinkonsistenz führt.
  4. Das Geschlecht des Kunden wird in einem System als „weiblich“ oder „männlich“ gespeichert, während es in einem anderen System als „F“ oder „M“ gespeichert wird, was zu einer Inkonsistenz der Domänenwerte führt.

Abgesehen von diesen häufigen Szenarien können Rechtschreibfehler, Transkriptionsfehler und fehlende Validierungsbeschränkungen die Datenstandardisierungsfehler in Ihren Datensätzen erhöhen.

Warum müssen Sie Daten standardisieren?

Jedes System hat seine eigenen Beschränkungen und Einschränkungen, die zu einzigartigen Datenmodellen und deren Definitionen führen. Aus diesem Grund müssen Sie die Daten möglicherweise umwandeln, bevor sie von einem Geschäftsprozess korrekt verarbeitet werden können.

Normalerweise wissen Sie, dass es an der Zeit ist, Daten zu standardisieren, wenn Sie dies wollen:

1. Konformität eingehender oder ausgehender Daten

Ein Unternehmen hat viele Schnittstellen, über die Datenpunkte von externen Akteuren, wie z. B. Lieferanten oder Partnern, ausgetauscht werden. Wann immer Daten in ein Unternehmen gelangen oder aus einem Unternehmen exportiert werden, ist es notwendig, die Daten an den erforderlichen Standard anzupassen, da sonst das nicht standardisierte Datenchaos immer größer wird.

2. Daten für BI oder Analytik vorbereiten

Dieselben Daten können auf verschiedene Weise dargestellt werden, aber die meisten BI-Tools sind nicht darauf spezialisiert, alle möglichen Darstellungen von Datenwerten zu verarbeiten, und es kann vorkommen, dass Daten mit derselben Bedeutung unterschiedlich behandelt werden. Dies kann zu verzerrten oder ungenauen BI-Ergebnissen führen. Bevor Sie also Daten in Ihre BI-Systeme einspeisen können, müssen diese bereinigt, standardisiert und dedupliziert werden, damit Sie korrekte, wertvolle Erkenntnisse gewinnen können.

3. Konsolidierung von Einheiten zur Beseitigung von Doppelspurigkeiten

Die Duplizierung von Daten ist eine der größten Gefahren für die Datenqualität, mit der Unternehmen zu kämpfen haben. Für einen effizienten und fehlerfreien Geschäftsbetrieb müssen Sie doppelte Datensätze, die zur selben Entität gehören, eliminieren (sei es für einen Kunden, ein Produkt, einen Standort oder einen Mitarbeiter), und ein effektiver Datendeduplizierungsprozess erfordert die Einhaltung von Datenqualitätsstandards.

4. Datenaustausch zwischen Abteilungen

Damit die Daten zwischen den Abteilungen interoperabel sind, müssen sie in einem Format vorliegen, das für alle verständlich ist. Meistens haben Unternehmen Kundeninformationen in CRMs, die von den Vertriebs- und Marketingmitarbeitern verstanden werden. Dies kann zu Verzögerungen bei der Erledigung von Aufgaben und zu Produktivitätseinbußen im Team führen.

Datenbereinigung versus Datenstandardisierung

Die Begriffe “ Datenbereinigung“ und “ Datenstandardisierung “ werden in der Regel synonym verwendet. Es gibt jedoch einen kleinen Unterschied zwischen den beiden.

Bei der Datenbereinigung werden fehlerhafte oder unsaubere Daten identifiziert und durch korrekte Werte ersetzt, während bei der Datenstandardisierung die Datenwerte von einem inakzeptablen Format in ein akzeptables Format umgewandelt werden.

Zweck und Ergebnis dieser beiden Prozesse sind ähnlich: Sie wollen Ungenauigkeiten und Inkonsistenzen in Ihren Datensätzen beseitigen. Beide Prozesse sind für Ihre Initiative zum Datenqualitätsmanagement unerlässlich und müssen Hand in Hand gehen.

Wie können Daten standardisiert werden?

Ein Datenstandardisierungsprozess besteht aus vier einfachen Schritten: definieren, testen, transformieren und erneut testen. Gehen wir die einzelnen Schritte etwas ausführlicher durch.

1. Definieren Sie eine Norm

In einem ersten Schritt müssen Sie herausfinden, welcher Standard den Anforderungen Ihres Unternehmens entspricht. Der beste Weg, einen Standard zu definieren, ist der Entwurf eines Datenmodells für Ihr Unternehmen. Dieses Datenmodell stellt den idealsten Zustand dar, dem die Datenwerte für eine bestimmte Entität entsprechen müssen. Ein Datenmodell kann wie folgt gestaltet werden:

  1. Identifizieren Sie die für Ihren Geschäftsbetrieb wichtigen Datenbestände . Die meisten Unternehmen erfassen und verwalten zum Beispiel Daten über Kunden, Produkte, Mitarbeiter, Standorte usw.
  2. Definieren Sie die Datenfelder jedes identifizierten Vermögenswerts und entscheiden Sie auch über die strukturellen Details. Sie möchten beispielsweise den Namen, die Adresse, die E-Mail-Adresse und die Telefonnummer eines Kunden speichern, wobei sich das Feld „Name“ über drei Felder und das Feld „Adresse“ über zwei Felder erstreckt.
  3. Weisen Sie jedem im Asset identifizierten Feld einen Datentyp zu. Das Feld „Name“ ist beispielsweise eine Zeichenkette, „Telefonnummer“ ist eine ganze Zahl usw.
  4. Definieren Sie Zeichengrenzen (Minimum und Maximum) für jedes Feld. Zum Beispiel darf ein Name nicht länger als 15 Zeichen und eine Telefonnummer nicht länger als 8 Ziffern sein, usw.
  5. Definieren Sie das Muster, dem die Felder entsprechen müssen – dies gilt möglicherweise nicht für alle Felder. Zum Beispiel sollte die E-Mail-Adresse eines jeden Kunden der Regex entsprechen: [chars]@[chars].[chars].
  6. Definieren Sie das Format, in dem bestimmte Datenelemente in ein Feld eingefügt werden müssen. Das Geburtsdatum eines Kunden sollte zum Beispiel als MM/TD/JJJJ angegeben werden.
  7. Definieren Sie die Messeinheit für numerische Werte (falls zutreffend). Zum Beispiel wird das Alter des Kunden in Jahren gemessen.
  8. Definieren Sie den Wertebereich für Felder, die aus einer bestimmten Menge von Werten abgeleitet werden müssen. Zum Beispiel muss das Alter des Kunden eine Zahl zwischen 18 und 50 sein, das Geschlecht muss männlich oder weiblich sein, und so weiter.

Ein entworfenes Datenmodell kann dann in ein ERD-Klassendiagramm eingefügt werden, um den definierten Standard für jeden Datenbestand und dessen Beziehung zueinander zu veranschaulichen. Ein Beispiel für ein Datenmodell für ein Einzelhandelsunternehmen ist unten dargestellt:

2. Test für Standard

Datenstandardisierungstechniken beginnen mit dem zweiten Schritt, da sich der erste Schritt auf die Definition dessen konzentriert, was sein soll – etwas, das einmalig gemacht oder inkrementell überprüft und von Zeit zu Zeit aktualisiert wird.

Sie haben den Standard definiert, und nun ist es an der Zeit zu prüfen, inwieweit die aktuellen Daten mit diesem übereinstimmen. Im Folgenden werden einige Techniken erläutert, mit denen Datenwerte auf Standardisierungsfehler geprüft und ein Standardisierungsbericht erstellt werden kann, der zur Behebung der Probleme verwendet werden kann.

a. Parsing von Datensätzen und Attributen

Der Entwurf eines Datenmodells ist der wichtigste Teil der Datenverwaltung. Doch leider entwerfen viele Unternehmen nicht rechtzeitig Datenmodelle und legen gemeinsame Datenstandards fest, oder die von ihnen verwendeten Anwendungen verfügen nicht über anpassbare Datenmodelle, was dazu führt, dass sie Daten mit unterschiedlichen Feldnamen und Strukturen erfassen.

Wenn Sie Informationen aus verschiedenen Systemen abfragen, stellen Sie vielleicht fest, dass einige Datensätze den Namen eines Kunden als ein einziges Feld zurückgeben, während andere drei oder sogar vier Felder für den Namen eines Kunden zurückgeben. Aus diesem Grund müssen Sie, bevor ein Datensatz auf Fehler geprüft werden kann, zunächst die Datensätze und Felder analysieren, um die Komponenten zu ermitteln, die auf Standardisierung geprüft werden müssen.

b. Bericht zum Gebäudedatenprofil

Der nächste Schritt besteht darin, die geparsten Komponenten durch ein Profiling-System laufen zu lassen. Ein Datenprofilierungstool liefert verschiedene Statistiken über Datenattribute, wie z. B.

  • Wie viele Werte in einer Spalte entsprechen dem erforderlichen Datentyp, Format und Muster?
  • Wie hoch ist die durchschnittliche Anzahl der Zeichen in einer Spalte?
  • Welches sind die meisten Mindest- und Höchstwerte in einer numerischen Spalte?
  • Welches sind die häufigsten Werte in einer Spalte und wie oft kommen sie vor?

c. Abgleich und Validierung von Mustern

Obwohl Datenprofilierungstools über Musterübereinstimmungen berichten, werden wir sie etwas ausführlicher besprechen, da sie ein wichtiger Bestandteil der Datenstandardisierungstests sind. Um Muster abzugleichen, müssen Sie zunächst einen regulären Ausdruck für ein Feld definieren, z. B. kann ein regulärer Ausdruck für E-Mail-Adressen lauten: ^[a-zA-Z0-9+_ .-]+@[a-zA-Z0-9 .-]+$. Alle E-Mail-Adressen, die nicht dem vorgegebenen Muster entsprechen, müssen bei der Prüfung markiert werden.

d. Verwendung von Wörterbüchern

Bestimmte Datenfelder können auf Standardisierung geprüft werden, indem die Werte mit Wörterbüchern oder Wissensdatenbanken verglichen werden. Sie können sie auch mit selbst erstellten Wörterbüchern abgleichen. Dies wird oft gemacht, um Rechtschreibfehler, Abkürzungen oder verkürzte Namen zu finden. So enthalten Firmennamen in der Regel Begriffe wie LLC, Inc, Ltd. und Corp. usw. Ein Abgleich mit einem Wörterbuch, das solche Standardbegriffe enthält, kann dabei helfen, festzustellen, welche Begriffe nicht der geforderten Norm entsprechen oder falsch geschrieben sind.

Lesen Sie mehr über die Verwendung von Wordsmith zur Entfernung von Störungen und zur Standardisierung von Daten in großen Mengen.

e. Prüfadressen für die Normung

Beim Testen von Daten für die Standardisierung müssen Sie möglicherweise auch spezielle Felder testen, z. B. Orte oder Adressen. Bei der Adressstandardisierung wird das Format der Adressen mit einer maßgeblichen Datenbank – z. B. dem USPS in den USA – abgeglichen und die Adressdaten in ein akzeptables, standardisiertes Format umgewandelt.

Eine standardisierte Adresse sollte korrekt geschrieben, formatiert, abgekürzt, geokodiert und mit genauen ZIP+4-Werten versehen sein. Alle Adressen, die nicht dem geforderten Standard entsprechen (insbesondere Adressen, die Lieferungen und Sendungen erhalten sollen), müssen gekennzeichnet werden, damit sie bei Bedarf umgestaltet werden können.

Lesen Sie weiter: Eine Kurzanleitung zur Adressennormung und -überprüfung.

Enterprise Content Solutions uses DataMatch Enterprise

Enterprise Content Solutions found 24% higher matches than other vendors for inconsistent address records.

Read case study

3. Transformieren

Im dritten Schritt des Datenstandardisierungsprozesses ist es schließlich an der Zeit, die nicht konformen Werte in ein standardisiertes Format umzuwandeln. Dies kann Folgendes beinhalten:

  • Umwandlung der Felddatentypen, z. B. Konvertierung der Telefonnummer von einer Zeichenkette in einen Ganzzahldatentyp und Eliminierung von Zeichen oder Symbolen in Telefonnummern, um eine 8-stellige Nummer zu erhalten.
  • Umwandlung von Mustern und Formaten, wie z. B. die Konvertierung von Datumsangaben im Datensatz in das Format MM/TT/JJJJ.
  • Umwandlung von Maßeinheiten, z. B. Umrechnung von Produktpreisen in USD.
  • Erweitern von abgekürzten Werten zu vollständigen Formularen, z. B. Ersetzen der abgekürzten US-Bundesstaaten: NY zu New York, NJ zu New Jersey usw.
  • Entfernen von Rauschen in Datenwerten, um aussagekräftigere Informationen zu erhalten, z. B. Entfernen von LLC, Inc. und Corp. aus Firmennamen, um die tatsächlichen Namen ohne Rauschen zu erhalten.
  • Rekonstruktion der Werte in einem standardisierten Format für den Fall, dass sie in eine neue Anwendung oder eine Datendrehscheibe, z. B. ein Stammdatenverwaltungssystem, übertragen werden müssen.

Alle diese Transformationen können manuell durchgeführt werden – was zeitaufwändig und unproduktiv sein kann – oder Sie können automatisierte Tools verwenden, die Ihnen bei der Datenbereinigung helfen, indem sie die Standardtest- und Transformationsphasen für Sie automatisieren.

4. Wiederholungsprüfung für Standard

Nach Abschluss des Transformationsprozesses ist es ratsam, den Datensatz erneut auf Standardisierungsfehler zu prüfen. Die Berichte vor und nach der Standardisierung können verglichen werden, um zu verstehen, inwieweit Datenfehler durch die konfigurierten Prozesse behoben wurden und wie sie verbessert werden können, um bessere Ergebnisse zu erzielen.

Verwendung von Self-Service-Tools zur Datenstandardisierung

Heutzutage werden die Daten sowohl manuell eingegeben als auch automatisch erfasst und generiert. Bei der Verarbeitung großer Datenmengen haben Unternehmen mit Millionen von Datensätzen zu kämpfen, die inkonsistente Muster, Datentypen und Formate enthalten. Und wann immer sie diese Daten nutzen wollen, werden die Teams mit stundenlangen manuellen Formatprüfungen und der Korrektur jedes noch so kleinen Details bombardiert, bevor die Informationen als nützlich eingestuft werden können.

Viele Unternehmen haben erkannt, wie wichtig es ist, ihren Teams Self-Service-Tools zur Datenstandardisierung zur Verfügung zu stellen, die auch über integrierte Datenbereinigungsfunktionen verfügen. Mit solchen Tools kann Ihr Team komplexe Datenbereinigungs- und Standardisierungstechniken für Millionen von Datensätzen innerhalb weniger Minuten durchführen.

DataMatch Enterprise ist ein solches Tool, das es den Datenteams erleichtert, Fehler bei der Datenstandardisierung schnell und präzise zu beheben und sich auf wichtigere Aufgaben konzentrieren zu können. Um mehr darüber zu erfahren, wie DataMatch Enterprise helfen kann, können Sie noch heute eine kostenlose Testversion herunterladen oder eine Demo mit einem Experten buchen.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.