Blog

Die Bedeutung der Datenbereinigung im Prozess der Datensatzverknüpfung

Was ist Record Linkage?

Das Verfahren, bei dem alle Daten, die mit einer einzigen Person verbunden sind und die in mehreren Informationssätzen verstreut sind, gesammelt und an einer Stelle zusammengefasst werden, wird als Datensatzverknüpfung bezeichnet. Dieses Verfahren der Datensatzverknüpfung ist von Bedeutung, wenn keine Identifikatoren auf der Grundlage einer einzelnen Person verfügbar sind. Unter solchen Umständen wird die Verknüpfung von Datensätzen mit Hilfe einer probabilistischen Technik oder einer anderen Technik durchgeführt, die in der Lage ist, personenbezogene Daten wie Name und Adresse zu vergleichen, die auch mit einem Fehlerrisiko behaftet sein können oder sich im Laufe der Zeit ändern können.

Ein detaillierter Vergleich der Strategien für die Datensatzverknüpfung

Die Datensatzverknüpfung wird meist in einem organisatorischen oder kommerziellen Umfeld durchgeführt. Es wird benötigt, um die identischen Datensätze aus einem Satz von Datensätzen mit den Informationen von Personen zu eliminieren. Die bei der Verknüpfung von Datensätzen angewandten Methoden bewegen sich in einem Bereich zwischen probabilistischen und deterministischen Strategien. Eine probabilistische Strategie nutzt eine Reihe von Feldern zwischen den Informationssätzen, um die Wahrscheinlichkeiten von Ähnlichkeiten zwischen beiden Datensätzen zu bestimmen. Diese Wahrscheinlichkeiten werden als Gewichtung oder Wahrscheinlichkeitspunkte dargestellt, die für jeden Satz von Informationen berücksichtigt werden, während sie verglichen werden. Wenn die endgültige Punktzahl für ein Datensatzpaar höher ist als ein festgelegter Schwellenwert für die Übereinstimmung, werden sie als Datensätze betrachtet, die mit derselben Person verbunden sind. Daher stimmt die probabilistische Strategie mit der Unvorhersehbarkeit zwischen den Informationsmengen mit fehlenden Ähnlichkeiten überein. Das bedeutet, dass es in der Lage ist, Datensätze mit Informationen zu verknüpfen, die Fehler in den Verknüpfungsfeldern aufweisen. Andererseits reichen deterministische Strategien für die Verknüpfung von Datensätzen von der einfachen Verknüpfung von Datenbanken durch einen zuverlässigen Entity Identifier bis hin zur komplexen schrittweisen algorithmischen Verknüpfung. Dazu gehört auch ein zusätzlicher Nachweis, um den Unterschied zwischen Datensätzen, die ähnlich sind, zu ermöglichen. Das bedeutet, dass sie nicht von einer identischen Ähnlichkeit des Entitätsbezeichners abhängt. Probabilistische Verknüpfungsmethoden sind vergleichsweise fehlerresistenter und bieten folglich eine bessere Qualität der Datensatzverknüpfung als deterministische Techniken. Probabilistische Strategien sind auch flexibler in einer Situation, in der große Mengen von Informationen mit Datensätzen verknüpft werden müssen.

Was ist Datenbereinigung?

Um das optimale Exzellenzniveau der Verknüpfungen zu erreichen, werden im Bereich der Datensatzverknüpfung eine Reihe von Standardisierungs- und Datenbereinigungsstrategien eingesetzt. Diese Methoden sind in den Softwarepaketen für die Datensatzverknüpfung weit verbreitet und werden in den Datensatzverknüpfungseinheiten häufig verwendet. Dem Prozess der Datensatzverknüpfung geht in der Regel eine Phase der Datenbereinigung voraus, unabhängig davon, welche Verknüpfungsmethode verwendet wird.
Die Datenbereinigung wird gelegentlich auch als Datenbereinigung oder Standardisierung bezeichnet. Sie steht im Zusammenhang mit der Änderung, Löschung oder Veränderung von Feldern auf der Grundlage ihrer Werte. Diese neuen Werte verbessern die Qualität der Informationen und machen sie daher für das Verfahren der Datensatzverknüpfung wertvoller. Die Verbesserung der Qualität der primären Informationsdatensätze führt zu einem höheren Qualitätsniveau des Verknüpfungsverfahrens. Größere Mengen personenbezogener Identifizierungsdaten erhöhen die Aussagekraft der Verknüpfungsergebnisse erheblich.
Die Datenbereinigung wurde als eine der grundlegenden Möglichkeiten zur Verbesserung der Qualität der Datensatzverknüpfung in einer Situation identifiziert, in der intensiv klassifizierende persönliche Statistiken nicht verfügbar sind. Die Datenbereinigung ist eine der entscheidenden Phasen im Verfahren der Datensatzverknüpfung, die den größten Teil der Mühe der Datensatzverknüpfung selbst in Anspruch nehmen kann. Datensätze mit größerer Aussagekraft führen zu besseren Ergebnissen bei der Verknüpfung von Datensätzen.

Strategien der Datenbereinigung

Bei der Verknüpfung von Datensätzen wird eine breite Palette von Methoden zur Datenbereinigung eingesetzt. Einige Strategien der Datenbereinigung zielen darauf ab, die Anzahl der Variablen zu erhöhen, indem Felder mit freiem Text aufgebrochen werden. Weitere Strategien der Datenbereinigung verfolgen lediglich das Ziel, Variablen in eine bestimmte Darstellung zu bringen, ohne die eigentlichen Informationen zu verändern. Einige der anderen zusätzlichen Techniken sind geplant, um die Daten in den Feldern zu ändern. Dies kann entweder durch Eliminierung ungültiger Werte, durch Änderung von Werten oder durch Zuweisung von Werten zu den leeren Feldern geschehen.

Datenbereinigung und Qualität der Datensatzverknüpfung

Im Rahmen einer Datensatzverknüpfung besteht das Ziel der Datenbereinigung darin, die Qualität der Verknüpfung zu verbessern. Dies beinhaltet die Minimierung der Anzahl aller zwei Datensätze, die fälschlicherweise als mit einer einzigen Person verbunden eingestuft werden, und aller zwei Datensätze, die fälschlicherweise als nicht mit einer einzigen Person verbunden eingestuft werden. Diese Fehler werden gemeinhin als falsch-positive bzw. falsch-negative Ergebnisse bezeichnet. Ohne Datenbereinigung wird eine Reihe von wirklich übereinstimmenden Datensätzen möglicherweise nicht entdeckt, weil die relevanten Eigenschaften nicht hinreichend gleich sind.
Die Strategien zur Datenbereinigung minimieren normalerweise die Inkonsistenz zwischen den beiden Werten des betreffenden Feldes. Durch die Eliminierung der Spitznamen wird eine weitere Reduzierung der Namenssammlung in den Informationsunterlagen erreicht. In ähnlicher Weise wird durch die Beseitigung der Unähnlichkeiten aufgrund der Zeichensetzung eine weitere Unstimmigkeit beseitigt. Dies führt dazu, dass erwartungsgemäß eine große Anzahl von passenden Ähnlichkeiten gefunden wird.
Die Datenbereinigung ist ein wertvoller Prozess, da sie die Qualität der Datensatzverknüpfung verbessern kann. Die Datenbereinigung umfasst eine breite Palette von Techniken, die für bestimmte Situationen geeignet sind. Dazu gehört die Verwendung eines neuen Algorithmus, der die meisten Fehlertypen und zu erwartenden Komplikationen identifiziert und korrigiert. Der Algorithmus ist in der Lage, die Daten zu bereinigen und alle Ungenauigkeiten und Unstimmigkeiten in den Informationsdatensätzen oder bestimmten Feldwerten zu beseitigen. Bei der Anwendung dieser Techniken ist große Vorsicht geboten. Der Erhalt von Daten mit verbesserter Qualität ist wichtiger als die Zeit, die für die Verarbeitung einer großen Datenmenge benötigt wird. Daher liegt das Hauptaugenmerk auf dem Erhalt qualitativ hochwertiger Daten. Als integraler Bestandteil des Prozesses der Datensatzverknüpfung kann anerkannt werden, dass die Datenbereinigung die Gesamtqualität verbessern wird.

In this blog, you will find:

Try data matching today

No credit card required

*“ zeigt erforderliche Felder an

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Oops! Wir konnten dein Formular nicht lokalisieren.