Jeder, der mit Daten arbeitet, weiß um die Bedeutung von Mustern. Ganz gleich, ob Sie große Datensätze ganzheitlich analysieren oder bis auf den kleinsten Wert herunterbrechen – Muster sind überall zu finden. Sie können allgemeingültig sein – wie das Muster einer Kreditkartennummer – oder sie können einzigartig für Ihr Unternehmen sein, z. B. das Muster, das für die Anzeige von Produktinformationen auf Ihrer Website verwendet wird.
Wenn Daten erfasst werden, folgen sie nicht immer dem richtigen Muster. Unternehmen müssen verschiedene Methoden für den Abgleich, die Validierung und die Umwandlung von Mustern implementieren, um die Daten in der gewünschten Form und dem gewünschten Format zu erhalten.
In diesem Blog werden wir einige wichtige Konzepte im Zusammenhang mit dem Musterabgleich und der Validierung kennenlernen, z. B:
- Was bedeutet der Musterabgleich?
- Wie unterscheidet sich der Musterabgleich vom Zeichenfolgenabgleich?
- Wie funktioniert der Musterabgleich?
- Was sind die häufigsten Gründe für den Abgleich und die Validierung von Mustern?
- Wie können Sie Ihre Daten in das von Ihnen benötigte Muster umwandeln?
Lassen Sie uns eintauchen.
Was ist ein Mustervergleich?
Ein Muster wird als etwas wahrgenommen, das das Gegenteil von Unordnung oder Chaos ist. Es handelt sich um ein sich wiederholendes Modell, das in einer großen Menge von Datenwerten, die zum selben Bereich gehören, identifiziert werden kann. Daher kann der Mustervergleich wie folgt definiert werden:
Der Prozess der Suche nach einer bestimmten Folge oder Platzierung von Zeichen in einem gegebenen Datensatz.
Der Musterabgleich liefert eindeutige Ergebnisse: Die Eingabezeichenfolge enthält entweder das Muster (ist gültig) oder nicht (ist ungültig). Für den Fall, dass die Zeichenkette nicht das erforderliche Muster enthält, wird der Abgleichprozess häufig um eine Mustertransformation erweitert, bei der Teildatenelemente aus dem Eingabewert extrahiert und dann neu formatiert werden, um das erforderliche Muster zu erstellen.
Musterabgleich versus Zeichenfolgenabgleich
Bevor wir die Funktionsweise von Algorithmen zum Musterabgleich erörtern, ist es wichtig, ihre Beziehung zu Algorithmen zum Abgleich von Zeichenfolgen zu verstehen. Diese beiden Begriffe werden oft als ein und dasselbe behandelt, aber sie sind in ihrem Zweck und ihrer Verwendung recht unterschiedlich. In der nachstehenden Tabelle sind einige der wichtigsten Unterschiede aufgeführt:
Abgleich von Mustern | String-Abgleich | |
Vergleich | Er vergleicht eine Zeichenkette mit einem Standardmuster, das Blöcke oder Token von Zeichen darstellt. | Er vergleicht zwei Zeichenketten Zeichen für Zeichen. |
Beispiel | Vergleich von jane-doe@gmail.com mit [name]@[domain].[domain-extension]. | Vergleich von Elizabeth mit Alizabeth. |
Ergebnisse | Berechnet endgültige Ergebnisse – entweder wird das Muster gefunden oder es ist nicht vorhanden. | Berechnet exakte Übereinstimmungen (Staub mit Staub) oder unscharfe Übereinstimmungen (Staub mit Rost). |
Verwendet | Dient zum Parsen und Extrahieren von Werten oder zum Umwandeln von Werten in Standardmuster. | Dient der Korrektur von Rechtschreibfehlern, der Erkennung von Plagiaten und der Identifizierung von Werten mit ähnlicher Bedeutung oder Zeichenzusammensetzung. |
Wie funktioniert der Musterabgleich?
Einfach ausgedrückt, arbeiten Algorithmen für den Mustervergleich mit regulären Ausdrücken (oder regex). Um zu verstehen, was ein regulärer Ausdruck ist, stellen Sie sich vor, dass es sich um eine Sprache handelt, die Ihnen hilft, ein Muster zu definieren und es mit jemandem zu teilen – oder in unserem Fall mit einem Computerprogramm.
Reguläre Ausdrücke teilen Computerprogrammen mit, nach welchem Muster sie in Testdaten suchen sollen. Manchmal ist das Programm intelligent genug, um Muster aus einer Reihe von Datenwerten zu erkennen und automatisch eine Regex zu generieren. Einige Programme oder Tools verfügen über eine integrierte Regex-Bibliothek, die häufig verwendete Muster enthält, z. B. Kreditkartennummern, US-Telefonnummern, Datumsformate, E-Mail-Adressen usw.
Beispiel für ein passendes E-Mail-Adressmuster
Um herauszufinden, was ein Algorithmus zum Musterabgleich ist, nehmen wir das Beispiel der Validierung des Musters von E-Mail-Adressen. Der erste Schritt besteht darin, die Regex zu definieren, die das Muster einer gültigen E-Mail-Adresse angibt. Ein Beispiel für eine gültige E-Mail-Adresse könnte wie folgt aussehen:
[name]@[domain].[domain-extension]
In der Regex-Sprache wird dieses Muster wie folgt übersetzt:
^[\w-.]+@([\w-]+.)+[\w-]{2,3}$
Wo,
- ^ steht für den Anfang eines Satzes und $ für das Ende.
- [\w-.] bedeutet ein Wort, das alphanumerische Zeichen, einen Unterstrich, einen Bindestrich oder einen Punkt enthält.
- +@ bedeutet die Hinzufügung eines @-Symbols.
- ([\w-]+.) bezeichnet ein Wort, das alphanumerische Zeichen, Unterstriche oder Bindestriche enthält und mit einem Punkt endet.
- +[\w-]{2,3} bedeutet ein Wort, das alphanumerische Zeichen oder einen Bindestrich enthält, und dieses Wort darf nur mindestens zwei und höchstens drei Zeichen haben.
Unten sehen Sie eine Reihe von Test-E-Mail-Adressen, die durch dieses Regex-Muster laufen, und die Ergebnisse.
Nein. | Test | Ergebnis | Grund für das Scheitern |
1. | michael.scott@gmail.com | Gültig | |
2. | pam.beesly_gmail.com | Ungültig | Fehlendes @-Symbol. |
3. | jim.halpert@gm.ail.com | Ungültig | Die Domain hat einen unerwarteten Punkt. |
4. | dwight.schrute@gmail.com4 | Ungültig | Die Domainendung hat mehr als 3 Zeichen (z. B. com4). |
Es liegt auf der Hand, dass die manuelle Definition von Regexen mühsam ist und einiges an Fachwissen erfordert. Sie können sich auch für Datenstandardisierungstools entscheiden, die visuelle Regex-Designer anbieten (mehr dazu in einem späteren Abschnitt).
Anwendungsfälle für den Musterabgleich
Nachdem wir nun wissen, was der Musterabgleich ist und wie der Algorithmus funktioniert, fragen Sie sich vielleicht, wo genau er eingesetzt wird. Der Musterabgleich ist eines der grundlegendsten Konzepte in verschiedenen Bereichen wie der Computerprogrammierung, der Datenwissenschaft und -analyse, der Verarbeitung natürlicher Sprache und vielen mehr.
Wenn wir speziell über den Musterabgleich und die Validierung im Datenbereich sprechen, finden sich hier einige der häufigsten Anwendungen:
1. Validierung von Formularübermittlungen
Da der Datenmusterabgleich zwischen gültigen und ungültigen Informationen unterscheidet, wird er meist zur Überprüfung von Formularen verwendet, die auf Websites oder in anderen Softwareanwendungen eingereicht werden. Der Regex wird je nach Bedarf auf die Formularfelder angewendet; einige Beispiele für Validierungen sind unten aufgeführt:
- Der Name einer Person enthält nur Alphabete oder Symbole,
- Die E-Mail-Adresse entspricht dem richtigen Muster,
- Die Rufnummer enthält nur Ziffern,
- Die Kreditkartennummer darf nicht mehr als 16 Ziffern haben und so weiter.
2. Durchführen von Such- und Ersetzungsoperationen
Der Musterabgleich ist auch in Anwendungen nützlich, die über Funktionen zum Suchen und Ersetzen von Textinformationen verfügen. Einige Basisanwendungen bieten nur den Abgleich von Zeichen für Zeichen (oder den Abgleich von Zeichenketten), während andere auch Regex-Such- und Ersetzungsfunktionen bieten, mit denen Sie Muster in Textdokumenten suchen können und nicht nur exakte Übereinstimmungen mit Zeichenketten.
3. Bereinigung und Standardisierung von Datensätzen
Sie können versuchen, die Informationen bei der Dateneingabe zu validieren, z. B. bei der Übermittlung von Formularen, aber aufgrund der verschiedenen Beschränkungen und Einschränkungen, die in den verschiedenen Systemen auftreten, können Ihre Unternehmensdatensätze immer noch mehrere Darstellungen derselben Informationen enthalten. An dieser Stelle ist es unerlässlich, Datensätze zu bereinigen und zu standardisieren, bevor sie für Routinevorgänge oder BI verwendet werden können.
4. Parsing und Extraktion von Werten
Da der Musterabgleich nach einer bestimmten Zeichenfolge in einem bestimmten Wert sucht, ist dieses Verfahren auch für den Abgleich und die Extraktion von Wert-Tokens nützlich, die sich in erweiterten Informationsformen befinden. Sie können zum Beispiel die Domänen aus einer Liste von geschäftlichen E-Mail-Adressen extrahieren, um herauszufinden, bei welchem Unternehmen die Person arbeitet, oder Sie können die Stadt und das Land des Wohnsitzes aus Adressfeldern extrahieren, die 3-4 Zeilen an Informationen enthalten.
Wie lassen sich Muster abgleichen?
Beim Abgleich und bei der Validierung von Mustern verfolgen die Unternehmen in der Regel zwei Ansätze: Zum einen schreiben sie eigene Code-Skripte, zum anderen verwenden sie Software-Tools von Drittanbietern. Lassen Sie uns die Umsetzung beider Ansätze diskutieren.
1. Mustervergleich mit Code
Wenn es um die Bereinigung und Standardisierung von Daten geht, besteht die Standardlösung für viele Unternehmen darin, benutzerdefinierte interne Anwendungen und Codierungsskripte für verschiedene Standardisierungsvorgänge, einschließlich Musterabgleich und Transformation, zu erstellen. So interessant das auch klingen mag, es kann eine ziemliche Herausforderung sein.
Why in-house data quality projects fail
Read this whitepaper to understand the consequences of ignoring poor data quality, gain insight on why in-house data quality solutions fail and at what costs.
DownloadWerfen wir einen Blick auf einen JavaScript-Codeausschnitt, der E-Mail-Adressen validiert.
function emailValidation(input) { var regex = /^\w+([.-]?\w+)@\w+([.-]?\w+)(.\w{2,3})+$/; if(input.value.match(regex)) { alert("Valid"); return true; } sonst { alert("Invalid"); return false; } } |
Beachten Sie, dass dieses Codeschnipsel nur die E-Mail-Adressen validiert und sie nicht in ein standardisiertes Muster umwandelt, falls sie ungültig sind. Außerdem wird nur das E-Mail-Adressfeld überprüft, so dass Sie für verschiedene Muster jeweils eine ähnliche Code-Implementierung benötigen. Schließlich ist die Regex zur Überprüfung von E-Mail-Adressen noch etwas einfacher zu entschlüsseln. Wenn es sich um Datenfelder mit komplexen Mustern handelt, können sich Regexe über mehrere Zeilen erstrecken. Der folgende Codeschnipsel findet beispielsweise Musterübereinstimmungen für URLs.
function URLValidation(input) { var regex = /[-a-zA-Z0-9@:%.+~#=] {1,256}.[a-zA-Z0-9()]{1,6}\b ([-a-zA-Z0-9()@:%+.~#?&//=]*) ?/gi; if(input.value.match(regex)) { alert("Valid"); return true; } sonst { alert("Invalid"); return false; } } |
2. Musterabgleich mit Software-Tools
Aus den oben genannten Gründen kann die Pflege benutzerdefinierter Anwendungen sehr ressourcenintensiv sein. Sie müssen ein Team von internen Entwicklern einstellen, die ständig von Geschäftsanwendern um Fehlerbehebung und Aktualisierung von Codefunktionen gebeten werden.
Aus diesem Grund tendieren viele Manager und leitende Dateningenieure dazu, einfache Tools für die Erstellung, den Abgleich und die Umwandlung von Mustern zu verwenden, die sowohl von IT- als auch von Nicht-IT-Mitarbeitern leicht genutzt werden können.
Solche Mustervergleiche sind mit verschiedenen Funktionen ausgestattet. Die häufigsten Merkmale werden im Folgenden erläutert.
1. Visuelle Musterersteller
Eine visuelle Mustererstellungsfunktion bietet eine grafische Drag-and-Drop-Benutzeroberfläche, die für die Erstellung von Mustern verwendet werden kann. Während ein Benutzer Pattern-Blöcke oder Token im Arbeitsbereich ablegt, wird eine entsprechende Regex im Backend generiert. Diese Funktion macht technische Fachkenntnisse überflüssig und ermutigt auch unbedarfte Benutzer, Muster zu erstellen.
Ein Screenshot des visuellen Musterdesigners in DataMatch Enterprise ist unten abgebildet:
2. Mustervergleich nach Datentyp
Ein weiteres interessantes Merkmal von Tools für den Musterabgleich ist die Möglichkeit, ganze Spalten nach ihren Datentypmustern zu profilieren. So können Sie z. B. die Telefonnummernspalte nach dem ganzzahligen Datentyp profilieren, und der Anteil der Werte, die neben Ziffern auch andere Symbole und Zeichen enthalten, kann als ungültig gekennzeichnet werden. Auf diese Weise lässt sich schnell abschätzen, welcher Standardisierungsaufwand zur Behebung der ungültigen Muster erforderlich ist.
Nachfolgend sehen Sie einen Screenshot der Musterübereinstimmung nach Datentyp in DataMatch Enterprise:
3. Mustervergleich mit der Regex-Bibliothek
Viele Tools verfügen über integrierte Regex-Bibliotheken mit häufig verwendeten Mustern, z. B. Kreditkartennummern, US-Telefonnummern, Datumsformate, E-Mail-Adressen usw. Darüber hinaus können Sie auch benutzerdefinierte Muster (speziell für Ihre geschäftlichen Zwecke) erstellen und in der Bibliothek zur Wiederverwendung speichern.
Ein Bildschirmfoto der Regex-Bibliothek in DataMatch Enterprise ist unten abgebildet:
4. Komplettes Datenbereinigungs- und Standardisierungspaket
Einer der größten Vorteile solcher Tools ist, dass sie meist mit anderen Datenbereinigungs- und Standardisierungsfunktionen geliefert werden, die für die Umwandlung Ihrer Daten in eine akzeptable Form und ein akzeptables Format entscheidend sind. Sobald Sie den Bericht zum Musterabgleich haben, der zeigt, welche Datenwerte gültig sind und welche nicht, ist der nächste wichtige Schritt, auch die Muster zu korrigieren.
Aus diesem Grund kann die Einführung eines End-to-End-Systems, das die verschiedenen Disziplinen des Datenqualitätsmanagements – einschließlich Datenprofilierung, -bereinigung, -standardisierung, -abgleich und -zusammenführung – übernimmt, von großem Nutzen sein.
Nachfolgend sehen Sie einen Screenshot der verschiedenen Datenqualitätsfunktionen von DataMatch Enterprise :
Entscheidung für eine codefreie Lösung, die Muster erstellt, abgleicht und umwandelt
Obwohl wir uns in diesem Blog hauptsächlich auf den Musterabgleich konzentriert haben, ist die Kunst der Mustertransformation ebenso interessant – und eine Herausforderung. Aus diesem Grund stellen viele Unternehmen ihren Teams gerne Self-Service-Tools für die Datenbereinigung und -standardisierung zur Verfügung, die über Funktionen für den Entwurf, den Abgleich und die Umwandlung von Mustern verfügen. Mit solchen Tools kann Ihr Team komplexe Datenbereinigungs- und Standardisierungstechniken für Millionen von Datensätzen innerhalb weniger Minuten durchführen.
DataMatch Enterprise ist ein solches Tool, das es den Datenteams erleichtert, Musterfehler schnell und präzise zu korrigieren und sich auf wichtigere Aufgaben konzentrieren zu können. Um mehr darüber zu erfahren, wie DataMatch Enterprise helfen kann, können Sie noch heute eine kostenlose Testversion herunterladen oder eine Demo mit einem Experten buchen.