Blog

Verwendung von Wordsmith zur Entfernung von Rauschen und zur Standardisierung von Daten in großen Mengen für eine höhere Zuordnungssicherheit

Verwendung von Wordsmith zur Entfernung von Rauschen und zur Standardisierung von Daten in großen Mengen für eine höhere Zuordnungssicherheit

Die Daten, die in Ihr Unternehmen fließen, haben eine Vielzahl von Formaten: inkonsistente Großschreibung, Interpunktion, obskure Akronyme, alphanumerische Zeichen in Feldern, in denen sie nicht sein sollten, und so weiter. Dies liegt daran, dass Ihre Daten in mehreren, unterschiedlichen Systemen gespeichert sind und jedes ein etwas anderes Format und andere Regeln für die Speicherung von Daten hat. Das Problem wird durch menschliche Fehler bei der Dateneingabe noch verschärft.

Diese kleinen Unterschiede können zu Missverständnissen und Fehlinterpretationen der Daten Ihres Unternehmens führen, was dazu führt, dass die Personen, die sich auf diese Daten verlassen, ihnen misstrauen und mehrere Kontrollen durchführen, um sicherzustellen, dass die aus den Daten gezogenen Schlussfolgerungen tatsächlich korrekt sind.

Beim Abgleich von Daten aus verschiedenen Datenquellen können diese Inkonsistenzen zu fehlenden Übereinstimmungen und falsch-positiven Ergebnissen führen, wodurch das Vertrauen in den Datenabgleichsprozess sinkt, was dazu führt, dass Duplikate und Verknüpfungen nicht ermittelt werden können.

Mit DataMatch Enterprise konzentrieren wir uns darauf, Ihnen zu helfen
das Beste aus Ihren Daten herauszuholen
mit einer Vielzahl von integrierten Datenstandardisierungstransformationen innerhalb einer Point-and-Click-Schnittstelle. In diesem Blog gehen wir etwas tiefer in die Materie ein und zeigen Ihnen, wie Sie unsere WordSmith-Signaturfunktionalität nutzen können, um den Abgleichprozess weiter zu verbessern und Ihre Daten in großen Mengen zu standardisieren.

Was ist WordSmith?

Wordsmith ist ein Signaturdatenleiter-Tool, mit dem Sie ein Profil erstellen, standardisieren und Rauschen aus Spaltendaten entfernen können. Neue Spalten können auch automatisch erstellt werden, um transformierte Daten aus bestehenden Spalten zu analysieren. Wir werden uns im weiteren Verlauf dieses Blogs Anwendungsfälle mit Beispielen ansehen. Die Idee ist, das Vertrauen in den Abgleich und die Genauigkeit zu erhöhen, indem Konsistenz gewährleistet und Redundanz minimiert wird.

Wie funktioniert WordSmith?

WordSmith befindet sich auf der Registerkarte 4 von DataMatch Enterprise. Diese Registerkarte enthält alle unsere vorgefertigten Datenbereinigungstransformationen. Wie in der obigen Abbildung gezeigt, können Sie WordSmith für jede beliebige Spalte verwenden, indem Sie auf das Symbol „Bearbeiten“ klicken. Daraufhin öffnet sich ein zweites Fenster, wie in der Abbildung dargestellt.

Das Tool erstellt ein Profil der ausgewählten Spalte und zeigt die Wörter in absteigender Reihenfolge auf der Grundlage ihrer Anzahl an. Sie können die maximale Anzahl der zusammengefassten Wörter ändern, die das Tool anzeigen soll. Aus unserer Erfahrung mit dem Abgleich von Daten von mehr als 4.000 Kunden auf der ganzen Welt wissen wir, dass die sich am häufigsten wiederholenden Wörter in einer Spalte in der Regel am stärksten uneinheitlich sind und daher die Zuverlässigkeit des Abgleichs beeinträchtigen.

Mit diesem Werkzeug können Sie Wörter ersetzen, sie in eine neue Spalte einfügen und löschen. Diese Funktionen können auf verschiedene Weise zusammen verwendet werden, um Ihre Daten in großen Mengen zu standardisieren.

Wie kann ich Daten mit WordSmith standardisieren?

Werfen wir einen Blick auf einige der häufigsten Verwendungszwecke von WordSmith bei unseren Kunden.

Beseitigung verrauschter oder redundanter Daten

In der Datenwissenschaft sind Rauschen Daten, die keine zusätzliche Bedeutung für Ihre Daten haben und im Allgemeinen die Analyse verzerren. Beim Abgleich Ihrer Daten führt das Vorhandensein von Rauschen zu fehlenden Übereinstimmungen und falsch positiven Ergebnissen.

Nehmen wir an, dass Sie in der Spalte Firmenname 3 verschiedene Firmen sehen:

  • ABC Inc.
  • ABC Unternehmen
  • ABC Industrien

Sie wissen, dass es sich bei allen 3 um ein und dieselbe Person handelt. Bei der Verwendung von Datenabgleichssoftware würden Sie diese Übereinstimmungen jedoch übersehen. Mit WordSmith können Sie solche Instanzen identifizieren, indem Sie die max. Anzahl der Wörter in einer Gruppe auf 2 oder 3 setzen und dann die Option „Ersetzen“ verwenden, um die drei oben aufgeführten Ausdrücke durch „ABC“ oder das von Ihnen bevorzugte Standardformat für Firmennamen zu ersetzen.

Die Änderung würde automatisch auf jede Instanz in Ihren Daten angewandt werden – unabhängig davon, ob Sie hundert Datensätze oder 10 Millionen haben.

Schauen wir uns ein weiteres Beispiel an. Angenommen, Sie haben die folgenden 3 unterschiedlichen Unternehmen in der Spalte Firmenname:

  • XYZ Incorporated
  • 123 Vergesellschaftet
  • ABC Incorporated

Beim Abgleich können diese Datensätze als übereinstimmend gekennzeichnet werden, da das Wort „Incorporated“ in allen 3 Datensätzen vorkommt. Ein falsches Positiv. Mit WordSmith können Sie solche Instanzen identifizieren und mit der Option „Löschen“ vollständig aus dieser Spalte entfernen.

Filtern oder Parsen von Daten in eine neue Spalte

Nehmen wir an, Sie sind ein Wohnungsunternehmen und haben eine Kundenspalte, die Daten sowohl für Eigentümer als auch für Mieter enthält. Sie möchten in der Lage sein, sofort zu erkennen, welche Entitäten Mieter und welche Eigentümer sind, indem Sie jedem Datensatz eine spezielle Kennzeichnung hinzufügen.

Um dies mit WordSmith zu tun, können Sie eine neue Spalte erstellen, die den Status anzeigt, entweder Mieter oder Eigentümer. Sie können die Datensätze von Mietern und Eigentümern mit den jeweiligen Tags verknüpfen. Bei der Anzeige Ihrer Daten steht Ihnen nun eine zusätzliche Spalte zur Verfügung, anhand derer Sie schnell erkennen können, ob es sich bei dem Unternehmen um einen Eigentümer oder einen Mieter handelt.

Die Parsing-Funktion kann auf Hunderte von verschiedenen Arten genutzt werden. Ein weiterer Anwendungsfall ist die Verwendung von Telefonnummern mit Vorwahl als Präfix. Aus Gründen der Standardisierung könnten Sie die Vorwahlen von den Telefonnummern trennen. Analysieren Sie einfach die Ortsvorwahlen in einer separaten Spalte und weisen Sie bei Bedarf einen Ersatzwert zu, so dass die neue Spalte lediglich den Ortsnamen und nicht die Ortsvorwahl enthält. Sie können nun die Vorwahlen aus der ursprünglichen Spalte löschen. All dies kann innerhalb von WordSmith mit ein paar einfachen Mausklicks erledigt werden, und die Änderungen werden in großen Mengen auf Ihre Daten angewendet.

Schlussfolgerung

Obwohl WordSmith scheinbar einfach ist, wird es von unseren Kunden auf tausende von innovativen Wegen zur Standardisierung von Massendaten eingesetzt. Für Datenquellen, die ähnliche Arten von Daten und Problemen enthalten, können Sie auch WordSmith-Vorlagen speichern, die Sie zur späteren Verwendung erstellen. Verwenden Sie nach dem Öffnen von WordSmith einfach die Option „Laden“, und schon ist Ihre Vorlage einsatzbereit.

Profi-Tipp: Bei der Arbeit mit Millionen von Datensätzen bevorzugen viele Benutzer die vertraute Oberfläche von Microsoft Excel.
Sie können WordSmith-Bibliotheken in Excel importieren
importieren, um die gewünschten Änderungen vorzunehmen und sie dann wieder zu laden.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.