Qualität ist nie ein Zufall; sie ist immer das Ergebnis einer hohen Absicht, aufrichtiger Bemühungen, intelligenter Leitung und geschickter Ausführung; sie ist die kluge Wahl unter vielen Alternativen.
Das häufigste Problem, mit dem Unternehmen zu kämpfen haben, ist die Qualität der Daten. Sie haben die richtigen Datenanwendungen im Einsatz, die Quellen erfassen die Art von Daten, die Sie benötigen, es gibt ein ganzes System, das die gesammelten Daten nutzt und analysiert, und dennoch sind die Ergebnisse nicht zufriedenstellend. Bei der weiteren Analyse stellen Sie Unterschiede zwischen den Datenerwartungen und der Realität fest; die Datensätze sind mit leeren Feldern, inkonsistenten Abkürzungen und Formaten, ungültigen Mustern, doppelten Datensätzen und anderen Unstimmigkeiten gefüllt.
Um diese Probleme zu beseitigen, müssen Sie Korrekturmaßnahmen einführen, die Datenqualitätsprobleme konsequent validieren und beheben. Um den Traum von der Datenqualität Wirklichkeit werden zu lassen, ist es jedoch notwendig, die Grundlagen der Datenqualität zu verstehen – ihre Bedeutung, ihre Auswirkungen und wie man Verbesserungen plant. Aus diesem Grund stellen wir Ihnen einen umfassenden Leitfaden zur Verfügung, der alle Aspekte des Datenqualitätsmanagements abdeckt: was es bedeutet, wie es sich auf ein Unternehmen auswirken kann, wie es verwaltet werden kann, wie es in verschiedenen Branchen aussieht und vieles mehr.
Dieser Leitfaden ist in drei Teile gegliedert:
- Datenqualität: Was ist das und warum ist sie wichtig?
- Probleme mit der Datenqualität: Was sind sie, woher kommen sie, und wie wirken sie sich auf das Geschäft aus?
- Datenqualitätsmanagement: Was es bedeutet, seine Säulen und Best Practices sowie einige Beispiele aus der Praxis in verschiedenen Branchen.
Dann fangen wir mal an.
Qualität der Daten
Was ist Datenqualität?
Der Grad, in dem die Daten die Anforderungen eines bestimmten Zwecks erfüllen.
Unternehmen speichern, verwalten und nutzen täglich große Mengen an Daten. Wenn die Daten ihren Zweck nicht erfüllen, wird davon ausgegangen, dass sie von schlechter Qualität sind. Diese Definition von Datenqualität impliziert, dass ihre Bedeutung je nach Organisation und Zweck, dem sie dienen, unterschiedlich ist.
Für einige Unternehmen kann die Vollständigkeit der Daten ein besserer Indikator für die Datenqualität sein als die Genauigkeit der Daten.
Dies führt dazu, dass Unternehmen ihre eigenen Merkmale und Anforderungen für die Aufrechterhaltung der Datenqualität im gesamten Unternehmen definieren. Es gibt eine weitere Möglichkeit, Datenqualität zu definieren:
Der Grad, in dem die Daten frei von unzulässigen Mängeln sind.
Daten können nie hundertprozentig genau und fehlerfrei sein. Sie wird zwangsläufig einige Fehler enthalten, und das ist akzeptabel. Aber untragbare Mängel in Ihrem Datensatz – die die Ausführung kritischer Prozesse beeinträchtigen – deuten auf eine schlechte Datenqualität hin. Sie müssen sicherstellen, dass die Datenstruktur den Anforderungen entspricht und ihr Inhalt so fehlerfrei wie möglich ist.
Warum ist Datenqualität wichtig?
Die Aufrechterhaltung der Datenreinheit sollte eine gemeinsame Anstrengung von Geschäftsanwendern, IT-Mitarbeitern und Datenexperten sein. Oft wird es jedoch nur als IT-Panne wahrgenommen – in dem Glauben, dass Daten schmutzig werden, wenn einige technische Prozesse zur Erfassung, Speicherung und Übertragung von Daten nicht korrekt funktionieren. Obwohl dies der Fall sein kann, müssen die Daten die Aufmerksamkeit der alle die richtigen Stakeholder, um die Qualität auf Dauer zu erhalten. Aus diesem Grund ist es unerlässlich, dass
eine Argumentation für Datenqualität aufbauen
die notwendigen Entscheidungsträger zu überzeugen, damit sie dazu beitragen können, dass sie in allen Abteilungen und auf allen Ebenen umgesetzt wird.
Im Folgenden haben wir die häufigsten Vorteile der Datenqualität aufgeführt.
01. Genaue Entscheidungsfindung
Wirtschaftsführer verlassen sich nicht mehr auf Annahmen, sondern sondern nutzen Business Intelligence-Techniken, um bessere Entscheidungen zu treffen. Dies ist wobei
Eine gute Datenqualität kann Folgendes ermöglichen
Genauigkeit
Entscheidungsfindung
Eine schlechte Datenqualität hingegen kann die Ergebnisse der Datenanalyse verfälschen und dazu führen, dass Unternehmen wichtige Entscheidungen auf falschen Prognosen aufbauen.
02. Operative Effizienz
Daten sind Teil jeder kleinen und großen Operation in einem Unternehmen. Ob es um Produkte, Marketing, Verkauf oder Finanzen geht – Daten effizient nutzen in jedem Bereich ist der Schlüssel. Die Verwendung von Qualitätsdaten in diesen Abteilungen kann dazu führen, dass Ihr Team Doppelarbeit vermeidet, schnell genaue Ergebnisse erzielt und den ganzen Tag über produktiv ist.
03. Einhaltung der Vorschriften
Einhaltung von Daten
Normen
(z. B. GDPR, HIPAA und CCPA) verlangen von Unternehmen die Einhaltung der Grundsätze der Datenminimierung, Zweckbindung, Transparenz, Genauigkeit, Sicherheit, Speicherbegrenzung und Rechenschaftspflicht.
Konformität mit solchen Datenqualitäts
Standards
ist nur mit sauberen und zuverlässigen Daten möglich.
04. Finanzielle Transaktionen
Den Unternehmen entstehen enorme
finanzielle Kosten aufgrund schlechter Datenqualität
. Vorgänge wie z. B. rechtzeitige Zahlungen, Vermeidung von Unter- und Überzahlungen, Beseitigung fehlerhafter Transaktionen und Vermeidung der Gefahr von Betrug aufgrund von Datenduplikationen sind nur mit sauberen und qualitativ hochwertigen Daten möglich.
05. Personalisierung und Kundentreue
Personalisierte Erlebnisse für Kunden anbieten ist die einzige Möglichkeit, sie davon zu überzeugen, bei Ihrer Marke und nicht bei einem Konkurrenten zu kaufen. Unternehmen nutzen eine Vielzahl von Daten, um das Verhalten und die Vorlieben ihrer Kunden zu verstehen. Mit präzisen Daten können Sie relevante Käufer erkennen und ihnen genau das anbieten, wonach sie suchen. So sichern Sie sich langfristig die Loyalität Ihrer Kunden und geben ihnen das Gefühl, dass Ihre Marke sie wie kein anderer versteht.
06. Wettbewerbsvorteil
Fast jeder Marktteilnehmer nutzte die Daten, um das zukünftige Marktwachstum und mögliche Chancen für Upselling und Cross-Selling zu verstehen. Die Einspeisung von Qualitätsdaten aus der Vergangenheit in diese Analyse wird Ihnen helfen
einen Wettbewerbsvorteil aufbauen
auf dem Markt, konvertieren mehr Kunden und
wachsen
Ihren Marktanteil.
07. Digitalisierung
Digitalisierung von wichtigen Prozessen kann Ihnen helfen, manuellen Aufwand zu vermeiden, die Bearbeitungszeit zu verkürzen und menschliche Fehler zu reduzieren. Bei schlechter Datenqualität können diese Erwartungen jedoch nicht erfüllt werden. Vielmehr führt eine schlechte Datenqualität zu einem digitalen Desaster, bei dem Datenmigration und -integration aufgrund unterschiedlicher Datenbankstrukturen und inkonsistenter Formate unmöglich erscheinen.
Probleme mit der Datenqualität
Ein Datenqualitätsproblem ist definiert als:
ein nicht tolerierbarer Mangel in einem Datensatz, der die Vertrauenswürdigkeit und Zuverlässigkeit dieser Daten stark beeinträchtigt.
Bevor wir mit der Umsetzung von Korrekturmaßnahmen zur Validierung, Korrektur und Verbesserung der Datenqualität fortfahren können, müssen wir unbedingt verstehen, was die Daten überhaupt verschmutzt. Aus diesem Grund werden wir zunächst einen Blick darauf werfen:
- Die häufigsten Datenqualitätsprobleme in den Datenbeständen eines Unternehmens,
- Woher kommen diese Probleme mit der Datenqualität?
- Wie können diese Datenqualitätsprobleme zu ernsthaften Geschäftsrisiken führen?
Was sind die häufigsten Probleme mit der Datenqualität?
No. | Data quality issue | Explanation | Example of data quality issue |
---|---|---|---|
1 | Column duplication | Multiple columns are present that have the same logical meaning. | Product category is stored in two columns that logically mean the same: Category and Classification. |
2 | Record duplication | Multiple records are present for the same individual or entity. | Every time a customer interacts with your brand, a new row is created in the database rather than updating the existing one. |
3 | Invalid data | Data values are present in an incorrect format, pattern, data type or size. | Customer Phone Numbers are present in varying formats – some are stored as flat 10 digits, while others have hyphens, some are saved as a string, while others as numbers, and so on. |
4 | Inaccurate data | Data values do not conform to reality. | Customer Name is incorrectly stored: Elizabeth is stored as Aliza, or Matt is stored as Mathew. |
5 | Incorrect formulae | Data values are calculated using incorrect formulae. | Customer Age is calculated from their Date of Birth but the formula used is incorrect. |
6 | Inconsistency | Data values that represent the same information vary across different datasets and sources. | Customer record stored in the CRM represents a different Email Address than the one present in accounts application. |
7 | Missing data | Data is missing or is filled with blank values. | The Job Title of most customers is missing from the dataset. |
8 | Outdated data | Data is not current and represents outdated information. | Customer Mailing Addresses are years old leading to returned packages. |
9 | Unverified domain data | Data does not belong to a range of acceptable values. | Customer Mailing Addresses are years old leading to returned packages. |
Wie gelangen Probleme mit der Datenqualität in das System?
Es gibt mehrere Möglichkeiten können Fehler in der Datenqualität in Ihr System gelangen. Werfen wir einen Blick darauf, was sie sind.
01. Mangel an angemessener Datenmodellierung
Dies ist der erste und wichtigste Grund für Fehler in der Datenqualität. Ihr IT-Team wendet bei der Einführung einer neuen Technologie – sei es eine neue Webanwendung, ein Datenbanksystem oder die Integration/Migration zwischen bestehenden Systemen – nicht die richtige Menge an Zeit und Ressourcen auf.
Die Datenmodellierung hilft bei der Organisation und Strukturierung Ihrer Datenbestände und -elemente. Ihre Datenmodelle können für eines der folgenden Probleme anfällig sein:
a)
Fehlen von hierarchischen Zwängen:
Dies ist der Fall, wenn es keine geeignete Beziehung Beschränkungen innerhalb Ihres Datenmodells. Sie haben zum Beispiel einen anderen Satz von Feldern für Bestehende Kunden und Neue Kundenaber Sie verwenden eine generische Kunde Modell für beide, anstatt ein Bestehende Kunden und Neue Kunden als Subtypen des Supertyps Kunde.
b)
Fehlende Kardinalität der Beziehung:
Dies ist der Fall, wenn es keine Zahl gibt, die die Anzahl der Beziehungen einer Einheit zu einer anderen darstellt. Zum Beispiel, ein
Bestellung
kann nur einen
Rabatt
zur gleichen Zeit haben.
c)
Fehlende referenzielle Integrität
:
Dies ist der Fall, wenn ein Datensatz in einem Datensatz auf einen Datensatz in einem anderen Datensatz verweist, der nicht vorhanden ist. Zum Beispiel, die
Verkäufe
Tabelle bezieht sich auf eine Liste von
Produkt-IDs
die sich nicht in der Tabelle
Produkte
Tabelle enthalten sind.
02. Fehlen eindeutiger Identifikatoren
Dies ist der Fall, wenn es keine Möglichkeit gibt, einen Datensatz eindeutig zu identifizieren, was dazu führt, dass Sie doppelte Datensätze für dieselbe Entität speichern. Datensätze werden eindeutig identifiziert, indem Attribute gespeichert werden wie
Sozialversicherungsnummer
für Kunden,
Hersteller-Teilenummer
für Produkte, etc.
03. Fehlen von Validierungsauflagen
Dies ist der Fall, wenn Datenwerte vor der Speicherung in der Datenbank nicht den erforderlichen Validierungsprüfungen unterzogen werden. So wird z. B. geprüft, ob die erforderlichen Felder vorhanden sind, ob Muster, Datentyp, Größe und Format der Datenwerte validiert werden und ob sie zu einem Bereich akzeptabler Werte gehören.
04. Mangelnde Qualität der Integration
Dies ist der Fall, wenn Ihr Unternehmen über eine zentrale Datenbank verfügt, die eine Verbindung zu mehreren Quellen herstellt und die eingehenden Daten integriert, um eine einzige Informationsquelle darzustellen. Fehlt bei diesem Aufbau eine zentrale Datenqualitätsmaschine zur Bereinigung, Standardisierung und Zusammenführung von Daten, können viele Datenqualitätsfehler entstehen.
05. Mangelnde Datenkompetenz
Trotz aller Bemühungen um den Schutz von Daten und deren Qualität in allen Datenbeständen kann ein Mangel an Datenkompetenz in einem Unternehmen Ihren Daten großen Schaden zufügen. Die Mitarbeiter speichern oft falsche Informationen, da sie nicht verstehen, was bestimmte Attribute bedeuten. Außerdem sind sie sich der Folgen ihrer Handlungen nicht bewusst, z. B. welche Auswirkungen die Aktualisierung von Daten in einem bestimmten System oder für einen bestimmten Datensatz hat.
06. Fehler bei der Dateneingabe
Tipp- oder Rechtschreibfehler sind eine der häufigsten Ursachen für Datenqualitätsfehler. Es ist bekannt, dass Menschen bei der Eingabe von 10.000 Daten mindestens 400 Fehler machen. Dies zeigt, dass selbst bei Vorhandensein eindeutiger Bezeichner, Validierungsprüfungen und Integritätsbeschränkungen die Möglichkeit besteht, dass menschliches Versagen eingreift und die Datenqualität beeinträchtigt.
Wie hängen Datenqualitätsprobleme mit geschäftlichen Gefahren zusammen?
Um relevante Entscheidungsträger einzubinden, ist es wichtig, sie darüber aufzuklären, wie sich große und kleine Datenqualitätsprobleme auswirken Geschäft. A
Datenfehler – Geschäftsrisikomatrix
wie die unten abgebildete, kann Ihnen dabei helfen.
Problem | Issue | Business risk | Quantifier | Cost |
---|---|---|---|---|
This is the data quality problem that resides in your dataset. | These are the various issues that can arise due to the data problem. | This is the impact the issue can have on the business. | This quantifies the impact in terms of a business measure. | This provides a periodic estimated cost incurred due to the business impact. |
Example | ||||
Misspelled customer name and contact information | Duplicate records created for the same customer | Customer service: Increased number of inbound calls | Increased staff time | $30,000.00 worth more staff time required |
Customer service: Decreased customer satisfaction | Order reduction, lost customers | ~500 less orders this year (as compared to estimated) |
Verwaltung der Datenqualität
Wir befassten uns mit den Grundlagen der Datenqualität, mit Problemen der Datenqualität und deren Zusammenhang mit Geschäftsrisiken. Jetzt ist es an der Zeit zu sehen, was das Datenqualitätsmanagement Plan ist: Wie können Sie die Datenqualität im Laufe der Zeit verbessern und konsistent verwalten und alle Vorteile nutzen, die Ihr Unternehmen daraus ziehen kann. Fangen wir an.
Was ist Datenqualitätsmanagement?
Datenqualitätsmanagement ist definiert als: Die Implementierung eines systematischen Rahmens, der kontinuierlich Datenquellen profiliert, die Qualität der Informationen überprüft und eine Reihe von Prozessen zur Beseitigung von Datenqualitätsfehlern durchführt – in dem Bestreben, die Daten genauer, korrekter, gültiger, vollständiger und zuverlässiger zu machen. Da die Anforderungen und Merkmale der Datenqualität in jedem Unternehmen anders sind, unterscheidet sich auch das Datenqualitätsmanagement von Unternehmen zu Unternehmen. Die Art der Mitarbeiter, die Sie für die Verwaltung der Datenqualität benötigen, die Metriken, die Sie zur Messung benötigen, die Datenqualitätsprozesse, die Sie implementieren müssen – all das hängt von verschiedenen Faktoren ab, z. B. von der Unternehmensgröße, der Größe der Datenmenge, den beteiligten Quellen usw. Im Folgenden werden die wichtigsten Säulen der Datenqualitätsimplementierung und des Datenqualitätsmanagements erörtert, die Ihnen eine gute Vorstellung davon vermitteln, wie Sie die Datenqualität in Ihrem Unternehmen für Ihre spezifischen Anforderungen sicherstellen können.
Was sind die 5 Säulen des Datenqualitätsmanagements?
In diesem Abschnitt befassen wir uns mit den wichtigsten Säulen des Datenqualitätsmanagements: Menschen, Messung, Prozesse, Rahmenbedingungen und Technologie.
01. Die Menschen: Wer ist am Datenqualitätsmanagement beteiligt?
Es ist eine weit verbreitete Meinung, dass man bei der Verwaltung der Datenqualität im gesamten Unternehmen die Zustimmung und das Einverständnis der Entscheidungsträger einholen muss. Die Wahrheit ist jedoch, dass Sie Datenexperten auf verschiedenen Führungsebenen benötigen, um sicherzustellen, dass sich Ihre Investitionen in Datenqualitätsinitiativen auszahlen.
Im Folgenden sind einige Rollen aufgeführt, die entweder für die Kontrolle der Datenqualität in einem Unternehmen verantwortlich, rechenschaftspflichtig, beratend tätig oder darüber informiert sind:
a) Leiter der Datenabteilung (CDO):
Ein Chief Data Officer (CDO) ist eine Position auf Führungsebene, die ausschließlich für die Entwicklung von Strategien für die Datennutzung, die Überwachung der Datenqualität und die Datenverwaltung im gesamten Unternehmen zuständig ist.
b)
Datenverwalter:
Ein Datenverwalter ist der Ansprechpartner in einem Unternehmen für alle Fragen im Zusammenhang mit Daten. Sie sind sehr praktisch veranlagt in wie das Unternehmen Daten erfasst, wo sie gespeichert werden, welche Bedeutung sie für die verschiedenen Abteilungen haben und wie die Qualität der Daten während ihres gesamten Lebenszyklus gewährleistet wird.
c) Verwahrer der Daten:
A
Datenverwalter ist für die Struktur der Datenfelder verantwortlich – einschließlich Datenbankstrukturen und -modelle.
d)
Datenanalytiker:
Ein Datenanalyst ist jemand, der in der Lage ist, Rohdaten in aussagekräftige Erkenntnisse umzuwandeln – insbesondere in bestimmten Bereichen. Eine Hauptaufgabe des Datenanalysten ist die Vorbereitung, Bereinigung und Filterung der benötigten Daten.
e) Andere Teams:
Diese Rollen werden als Datenkonsumenten betrachtet, d. h. sie nutzen Daten – entweder in ihrer Rohform oder wenn sie in umsetzbare Erkenntnisse umgewandelt werden, wie z. B. Vertriebs- und Marketingteams, Produktteams, Geschäftsentwicklungsteams usw.
Lesen Sie mehr über
Aufbau eines Datenqualitätsteams: Zu beachtende Rollen und Verantwortlichkeiten
.
02. Die Messung: Wie wird die Datenqualität gemessen?
Der zweitwichtigste Aspekt des Datenqualitätsmanagements ist seine Messung. Dabei handelt es sich um Datenmerkmale und wichtige Leistungsindikatoren, die das Vorhandensein von Datenqualität in Unternehmensdatensätzen bestätigen. Je nachdem, wie Ihr Unternehmen Daten nutzt, können diese KPIs unterschiedlich ausfallen. Ich habe die wichtigsten Daten aufgelistet Qualität Dimensionen und die Qualitätsmetrik, die sie darstellen:
- Genauigkeit: Wie gut bilden die Datenwerte die Realität oder die Richtigkeit ab?
- Herkunft: Wie vertrauenswürdig ist die ursprüngliche Quelle der Datenwerte?
- Semantisch: Entsprechen die Datenwerte ihrer Bedeutung?
- Struktur: Sind die Datenwerte im richtigen Muster und/oder Format vorhanden?
- Vollständigkeit: Sind Ihre Daten so umfassend, wie Sie sie benötigen?
- Konsistenz: Haben die verschiedenen Datenspeicher die gleichen Datenwerte für die gleichen Datensätze?
- Währung: Ist die Aktualität Ihrer Daten akzeptabel?
- Rechtzeitigkeit: Wie schnell werden die angeforderten Daten zur Verfügung gestellt?
- Angemessenheit: Haben die Datenwerte den richtigen Datentyp und die richtige Größe?
- Identifizierbarkeit: Stellt jeder Datensatz eine eindeutige Identität dar und ist kein Duplikat?
Lesen Sie mehr über
Dimensionen der Datenqualität – 10 Metriken, die Sie messen sollten
.
03. Prozess: Was sind Datenqualitätsprozesse?
Da die Datenmenge in den letzten Jahrzehnten massiv zugenommen hat, sind sie multivariat und werden in mehreren Dimensionen gemessen. Um Datenqualitätsprobleme zu finden, zu beheben und zu verbessern, müssen Sie eine Vielzahl von Datenqualitätsprozessen implementieren, von denen jeder einzelne einen anderen, wertvollen Zweck erfüllt. Werfen wir einen Blick auf die häufigsten Datenqualitätsprozesse, die Unternehmen zur Verbesserung ihrer Datenqualität einsetzen.
a) Erstellung von Datenprofilen
Es geht darum, den aktuellen Zustand Ihrer Daten zu verstehen, indem verborgene Details über ihre Struktur und ihren Inhalt aufgedeckt werden. Ein Algorithmus zur Erstellung von Datenprofilen analysiert die Spalten des Datensatzes und berechnet Statistiken für verschiedene Dimensionen, wie Vollständigkeit, Eindeutigkeit, Häufigkeit, Charakter und Musteranalyse usw.
b) Datenbereinigung und -standardisierung
Es handelt sich um den Prozess der Beseitigung falscher und ungültiger Informationen in einem Datensatz, um eine konsistente und nutzbare Ansicht über alle Datenquellen hinweg zu erhalten. Dazu gehören das Entfernen und Ersetzen falscher Werte, das Parsen längerer Spalten, die Umwandlung von Groß- und Kleinschreibung, das Zusammenführen von Spalten usw.
Auch bekannt als
Datensatzverknüpfung
und
Entitätsauflösung
ist es der Vorgang, bei dem zwei oder mehr Datensätze verglichen werden, um festzustellen, ob sie zu ein und derselben Entität gehören. Sie umfasst die Kartierung die gleichen Spalten, die Auswahl der abzugleichenden Spalten, die Ausführung von Abgleichsalgorithmen, die Analyse der Abgleichsergebnisse und die Abstimmung der Abgleichsalgorithmen, um genaue Ergebnisse zu erzielen.
Dabei werden mehrere Datensätze, die zur selben Entität gehören, eliminiert und nur ein Datensatz pro Entität beibehalten. Dazu gehört die Analyse der doppelten Datensätze in einer Gruppe, die Markierung der doppelten Datensätze und deren anschließende Löschung aus dem Datensatz.
e)
Datenzusammenführung und Überlebensfähigkeit
Sie ist der Prozess der Erstellung von Regeln, die doppelte Datensätze durch bedingte Auswahl und Überschreiben zusammenführen. Dies hilft Ihnen, Datenverluste zu vermeiden und ein Maximum an Informationen von Duplikaten zu erhalten. Dazu gehörten die Definition von Regeln für die Auswahl und das Überschreiben von Stammsätzen, die Ausführung von Regeln und deren Abstimmung, um genaue Ergebnisse zu erzielen.
f)
Daten
Governance
Der Begriff Data Governance bezieht sich in der Regel auf eine Sammlung von Rollen, Richtlinien, Arbeitsabläufen, Standards und Metriken, die eine effiziente Datennutzung und -sicherheit gewährleisten und es einem Unternehmen ermöglichen, seine Geschäftsziele zu erreichen. Dazu gehören die Erstellung von Datenrollen und die Zuweisung von Berechtigungen, die Entwicklung von Arbeitsabläufen zur Überprüfung von Informationsaktualisierungen, die Gewährleistung des Schutzes der Daten vor Sicherheitsrisiken usw.
Dabei werden die Adressen mit einer maßgeblichen Datenbank abgeglichen – z. B. mit der des USPS in den USA – und es wird überprüft, ob es sich bei der Adresse um einen für die Postzustellung geeigneten, genauen und gültigen Ort innerhalb des Landes handelt.
Lesen Sie mehr über die
5 Datenqualitätsprozesse, die Sie kennen sollten, bevor Sie ein DQM-Rahmenwerk entwerfen
.
04. Rahmen: Was ist ein Datenqualitätsrahmen?
Neben den Datenqualitätsprozessen ist ein weiterer wichtiger Aspekt, der bei der Entwicklung einer Datenqualitätsstrategie zu berücksichtigen ist, ein Datenqualitäts Rahmenwerk. Die Prozesse stellen eigenständige Techniken dar, die zur Beseitigung von Datenqualitätsproblemen in Ihren Datensätzen eingesetzt werden. A Datenqualität Rahmenwerk ist ein systematischer Prozess, der die Datenqualität konsequent überwacht, eine Vielzahl von Datenqualitätsprozessen (in einer bestimmten Reihenfolge) implementiert und sicherstellt, dass sie nicht unter festgelegte Schwellenwerte sinkt. Sie enthält weitere Einzelheiten über den Prozessablauf des Datenqualitätsmanagements.
Ein einfacher Rahmen für die Datenqualität besteht aus vier Stufen:
a) Bewerten:
Dies ist der erste Schritt des Rahmens, in dem Sie die beiden Hauptkomponenten bewerten müssen: die Bedeutung der Datenqualität für Ihr Unternehmen und die Bewertung der aktuellen Daten im Vergleich dazu.
b) Entwurf:
Der nächste Schritt im Datenqualitäts-Framework besteht darin, die erforderlichen Geschäftsregeln zu entwerfen, indem die benötigten Datenqualitätsprozesse ausgewählt und auf Ihre Daten abgestimmt werden, sowie das architektonische Design der Datenqualitätsfunktionen festzulegen.
c)
Ausführen:
Die dritte Phase des Zyklus ist die Phase der Ausführung. In den beiden vorangegangenen Schritten haben Sie die Bühne vorbereitet, nun ist es an der Zeit zu sehen, wie gut das System tatsächlich funktioniert.
d)
Überwachen:
Dies ist die letzte Phase des Rahmens, in der die Ergebnisse überwacht werden. Sie können fortgeschrittene Datenprofilierungstechniken verwenden, um detaillierte Leistungsberichte zu erstellen.
Lesen Sie mehr über
Entwurf eines Rahmens für das Datenqualitätsmanagement
.
05. Technologie: Was sind Datenqualitätsmanagement-Tools?
Obwohl Datenqualitätsprobleme von Natur aus recht komplex sind, validieren viele Unternehmen die Datenqualität immer noch manuell, was zu zahlreichen Fehlern führt. Die Einführung einer technologischen Lösung für dieses Problem ist der beste Weg, um die Produktivität Ihres Teams und die reibungslose Umsetzung eines Datenqualitätsrahmens zu gewährleisten. Es gibt viele Anbieter, die Datenqualitätsfunktionen in verschiedenen Angeboten bündeln, z. B:
a)
Eigenständige Datenqualitätssoftware zur Selbstbedienung
Software
:
Mit dieser Art von Datenqualitätsmanagement-Software können Sie eine Vielzahl von Datenqualitätsprozessen für Ihre Daten durchführen. Sie verfügen in der Regel über ein automatisiertes Datenqualitätsmanagement oder Stapelverarbeitungsfunktionen zum Bereinigen, Abgleichen und Zusammenführen großer Datenmengen zu bestimmten Zeiten am Tag. Es ist eine der schnellsten und sichersten Methoden zur Konsolidierung von Datensätzen, ohne dass wichtige Informationen verloren gehen, da alle Prozesse auf einer Kopie der Daten ausgeführt werden und die endgültige Datenansicht an eine Zielquelle übertragen werden kann.
b)
Datenqualität API oder SDK:
Einige Anbieter stellen die erforderlichen Datenqualitätsfunktionen über
APIs oder SDKs
. So können Sie alle Funktionen des Datenqualitätsmanagements in Echtzeit oder zur Laufzeit in Ihre bestehenden Anwendungen integrieren. Lesen Sie mehr über Datenqualitäts-API: Funktionen, Architektur und Vorteile.
c)
Datenqualität eingebettet in Datenmanagement-Tools
Einige Anbieter betten Datenqualitäts
Fähigkeiten
in
zentralisierten Datenmanagement-Plattformen
so dass alles in der gleichen Datenpipeline erledigt werden kann. Die Entwicklung eines durchgängigen Datenverwaltungssystems mit eingebetteter Datenqualitätsfunktion erfordert eine detaillierte Planung und Analyse sowie die Einbeziehung der wichtigsten Interessengruppen bei jedem Schritt des Prozesses. Solche Systeme werden oft als Paket angeboten
Stammdaten-Management
Lösungen.
Wie unterscheidet sich das Datenqualitätsmanagement vom Stammdatenmanagement?
- Der Begriff „Stammdatenmanagement“ bezieht sich auf eine Sammlung von Best Practices für das Datenmanagement, die Datenintegration, Datenqualität und Data Governance umfassen. Das bedeutet, dass Datenqualität und Stammdatenmanagement keine Gegensätze sind, sondern sich vielmehr ergänzen. MDM-Lösungen enthalten neben den Funktionen für das Datenqualitätsmanagement einige zusätzliche Funktionen. Dies macht MDM definitiv zu einer komplexeren und ressourcenintensiveren Lösung, was bei der Wahl zwischen den beiden Ansätzen zu berücksichtigen ist.
c)
Kundenspezifische interne Lösungen
Obwohl es auf dem Markt verschiedene Lösungen für Datenqualität und Stammdatenmanagement gibt, investieren viele Unternehmen in die Entwicklung einer eigenen Lösung für ihre individuellen Datenanforderungen. Auch wenn dies sehr vielversprechend klingt, verschwenden die Unternehmen bei diesem Prozess oft eine große Anzahl von Ressourcen – Zeit und Geld -. Die Entwicklung einer solchen Lösung mag zwar einfacher zu implementieren sein, aber es ist fast unmöglich, sie auf Dauer zu erhalten.
Wenn Sie mehr darüber erfahren möchten, lesen Sie unser Whitepaper:
Warum interne Datenqualitätsprojekte scheitern
.
Was sind die besten Praktiken für das Datenqualitätsmanagement?
Werfen wir einen kurzen Blick auf die bewährten Verfahren zur Datenqualität:
a)
Ermitteln Sie die Beziehung zwischen
Daten und Unternehmensleistung
und welche genauen Auswirkungen eine schlechte Datenqualität auf Ihre Unternehmensziele hat.
b)
Messung und Pflege der
Definition von Datenqualität
Wählen Sie eine Liste von Metriken aus, die Ihnen und Ihren Teams helfen, sich über die Datenqualität und ihre Bedeutung für Ihr Unternehmen einig zu werden.
c)
Einrichtung von
Rollen und Verantwortlichkeiten für Daten
in der gesamten Organisation, um die Verantwortung für die Erreichung und Aufrechterhaltung der Datenqualität zu übertragen – von der obersten Ebene bis zum Betriebspersonal.
d)
Schulung und Ausbildung von Teams
über Datenbestände und deren Eigenschaften, den Umgang mit Daten und die Auswirkungen ihres Handelns auf das gesamte Datenökosystem.
e)
Kontinuierlich
überwachen den Zustand der Daten
durch Datenprofilierung und
verborgene Details über ihre Struktur und ihren Inhalt aufdecken.
f)
Entwurf und
pflegen Datenpipelines
die eine nummerierte Liste von
Operationen
auf eingehende Daten ausführt, um eine einzige Quelle der Wahrheit zu erhalten.
g)
durchführen
Ursachenanalyse
von Datenqualitätsfehlern, um zu verstehen, woher die Datenqualitätsfehler kommen, und diese Probleme an der Quelle zu beheben.
h)
Nutzung der Technologie
um
zu erreichen
Datenqualität zu erreichen und zu erhalten, denn
kein
Denn kein Prozess verspricht eine gute Leistung und den besten ROI, wenn er nicht durch Technologie automatisiert und optimiert wird.
Wenn Sie mehr über jede dieser Praktiken erfahren möchten, lesen Sie unseren ausführlichen Blog
8 Best Practices zur Sicherung der Datenqualität auf Unternehmensebene
.
Beispiele aus der Praxis für das Datenqualitätsmanagement
In diesem letzten Abschnitt unseres Leitfadens werden wir uns einige Anwendungsfälle für die Datenqualität ansehen und herausfinden, wie renommierte Marken die folgenden Tools einsetzen
Tools für Datenbereinigung und -abgleich
für das Management der Qualität ihrer Daten einsetzen und was sie darüber zu sagen haben.
01. Datenqualitätsmanagement im Einzelhandel
Der größte Vorteil von DataMatch Enterprise™ war die Fuzzy-Logik und der synthetische Abgleich. Es war einfach etwas, das ich selbst nicht nachmachen konnte.
Marty YantzieManager für PC-Support und Systementwicklung, Buckle
Schnalle ist ein führender Einzelhändler für Denim, Sportbekleidung, Oberbekleidung, Schuhe und Accessoires mit über 450 Geschäften in 43 Staaten. Buckle stand vor der Herausforderung, große Mengen von Datensätzen aus Hunderten von Geschäften zu sortieren. Die Hauptaufgabe bestand darin, alle doppelten Informationen zu beseitigen, die in das aktuelle iSeries DB2-System geladen worden waren. Man suchte nach einer effizienten Methode, um doppelte Daten zu entfernen, die etwa 10 Millionen Datensätze ausmachten.
DataMatch Enterprise™ bot eine brauchbare und effizientere Lösung für Buckle. Das Unternehmen war in der Lage, eine große Anzahl von Datensätzen durch das
Deduplizierungsprozess
als ein Projekt unter Verwendung eines einzigen Softwaretools im Gegensatz zur Verwendung mehrerer verschiedener Methoden.
02. Datenqualitätsmanagement im Gesundheitswesen
DataMatch Enterprise™ war viel einfacher zu verwenden als die anderen Lösungen, die wir uns angesehen haben. Die Möglichkeit, die Datenbereinigung und den Abgleich zu automatisieren, hat uns jedes Jahr Hunderte von Personenstunden eingespart.
Shelley Hahn Geschäftsentwicklung, St. John Associates
St. John Associates bietet Vermittlungs- und Rekrutierungsdienste in den Bereichen Kardiologie, Notfallmedizin, Gastroenterologie, neurologische Chirurgie, Neurologie, orthopädische Chirurgie und anderen Bereichen. Mit einer wachsenden Datenbank von Bewerbern benötigte St. John Associates eine Möglichkeit zum Deduplizieren, Bereinigen und Abgleichen von Datensätzen. Nachdem diese Aufgabe mehrere Jahre lang manuell ausgeführt wurde, beschloss das Unternehmen, dass es an der Zeit war, ein Tool einzusetzen, das den Zeitaufwand für die
Reinigungsprotokolle
.
Mit DataMatch Enterprise war St. John Associates in der Lage, eine erste Datenbereinigung vorzunehmen, bei der Daten gefunden wurden, Zusammenführen und Bereinigung von Hunderttausende von Datensätzen in einem kurzen Zeitraum. DataMatch™ half, den Prozess der Deduplizierung durch Fuzzy-Matching-Algorithmen zu beschleunigen und erleichterte das Sortieren von Datenfeldern, um ungültige Informationen zu finden. Außerdem entfällt die Notwendigkeit der manuellen Eingabe, da die Benutzer Änderungen exportieren und bei Bedarf hochladen können.
03. Datenqualitätsmanagement bei Finanzdienstleistungen
Das schrittweise und assistentenähnliche Tool, das Sie durch den Prozess der Einrichtung eines Projekts führt. Es ist sehr intuitiv und ermöglicht es uns, alle Arten von Projekten zu erstellen und alle Arten von Datenquellen einzubinden. Einer der Gründe, warum wir uns für DL entschieden haben, war, dass es eine DB2-Importfunktion gibt, mit der wir direkt in unsere DB2-Datenbank gehen können. Mit der Schnittstelle konnten wir gute Ergebnisse erzielen und sie ist sehr einfach zu bedienen.
Scott FordIT-Lösungsarchitekt, Bell Bank
Glockenbank ist eine der größten unabhängigen Banken des Landes mit einer Bilanzsumme von mehr als 6 Milliarden Dollar und ist in allen 50 Bundesstaaten vertreten. Als große Privatbank arbeitet die Bell Bank mit vielen Anbietern und Dutzenden von Dienstleistungssparten zusammen – von Hypotheken bis zu Versicherungen, von der Altersvorsorge bis zur Vermögensverwaltung und vielen mehr. Mit Informationen, die isoliert und in verschiedenen
unterschiedlichen Datenquellen
war es für die Bank schwierig, einen einzigen, konsolidierten Überblick über ihre Kunden zu erhalten; ganz zu schweigen davon, dass ihr durch das Versenden mehrerer E-Mails an einen Anbieter oder Kunden unnötige Kosten entstanden.
DataMatch Enterprise ist ein wichtiger Bestandteil der bankinternen Datenmanagementlösung Datenmanagement-LösungDadurch können sie die Ergebnisse leicht gruppieren und die Liste aller Kundendatensätze zurückgeben, von denen angenommen wird, dass sie zu einer Einheit gehören. Diese
konsolidierte Ansicht
hilft der Bank, die Verbindung ihrer Kunden mit der Bank wirklich zu verstehen und die Maßnahmen zu ergreifen, die sie ergreifen kann, um diese Verbindung weiter zu stärken.
04. Datenqualitätsmanagement in Vertrieb und Marketing
DataMatch™ macht es mir viel einfacher, Spalten in Excel abzugleichen. Der einzige Grund, warum ich mir die Software zugelegt habe, war, verkaufte Fahrzeuge mit den von uns bearbeiteten Leads abzugleichen.
Matt GriffinVP Betrieb, TurnKey Auto Events
TurnKey Auto Veranstaltungen führt landesweit groß angelegte Autokaufkampagnen für Autohändler durch. Sie organisieren Veranstaltungen, die Autokäufer zum Besuch und zum Kauf von Fahrzeugen bewegen. Als Dienstleister, der Vertriebskontakte für Automobilhändler vermittelt, wollte TurnKey Marketing eine Gutschrift für zusätzliche Verkäufe erhalten, die mit den verschiedenen Autohäusern, mit denen sie zusammenarbeiten, getätigt wurden.
Da sie in der Lage sind, den Vertrieb mit der Vielzahl potenzieller Interessenten, die sie täglich ansprechen, abzustimmen, erhalten sie für jeden Lead eine Umsatzgutschrift (und verdienen Geld). Mit DataMatch™, dem hochentwickelten Data Ladder Datenabgleich Produkt war das Unternehmen in der Lage, Datensätze aus verschiedenen Quellen abzugleichen. Von dort aus konnten sie eine Vogelperspektive eines potenziellen Autoverkaufs im Laufe der Zeit erstellen.
05. Datenqualitätsmanagement im Bildungswesen
Die Idee, zwei Gruppen von Datensätzen miteinander zu verknüpfen, war für die Forschungsabteilung überwältigend. Das Verfahren wäre sehr zeitaufwändig und würde die Rechtzeitigkeit und den Ablauf der Forschungsaktivitäten gefährden.
Universität West Virginia
Universität West Virginia ist die einzige Forschungsuniversität des Bundesstaates, die einen Doktortitel vergibt und eine staatliche Zulassung besitzt. Die Schule bietet fast 200 Studiengänge für Studierende, Graduierte, Doktoranden und Fachleute an. Sie hatten die Aufgabe, die langfristigen Auswirkungen bestimmter medizinischer Erkrankungen auf die Patienten über einen längeren Zeitraum hinweg zu bewerten. Die Daten für die medizinischen Bedingungen und die aktuellen Gesundheitsdaten, die vom Staat zur Verfügung gestellt werden, sind in getrennte Systeme.
Mit DataMatch™, dem Vorzeigeprodukt von Data Ladder zur Datenbereinigung, konnte die Universität Datensätze bereinigen aus mehreren Systemen, die die erforderlichen Informationen enthalten. Von dort aus konnten sie Folgendes schaffen eine einheitliche Sicht des Patienten im Laufe der Zeit.
Das letzte Wort
Führungskräfte wissen um die Bedeutung von Daten – von Routinevorgängen bis hin zu fortschrittlicher Business Intelligence werden sie überall genutzt. Die meisten Teams, die mit Daten arbeiten, verbringen jedoch zusätzliche Stunden mit Doppelarbeit, mangelndem Datenwissen und fehlerhaften Ergebnissen. Und all diese Probleme entstehen durch ein schlechtes oder fehlendes Management der Datenqualität.
Investitionen in Datenqualitätstools, wie
DataMatch Enterprise
wird Ihnen auf jeden Fall helfen, mit dem Datenqualitätsmanagement zu beginnen. DataMatch führt Sie durch verschiedene Phasen der Datenbereinigung und des Datenabgleichs. Angefangen beim Importieren von Daten aus verschiedenen Quellen, führt es Sie durch
Datenprofilierung
,
Bereinigung
,
Standardisierung
und
Deduplizierung
. Darüber hinaus ist die
Adressüberprüfung
hilft Ihnen bei der Überprüfung von Adressen anhand der offiziellen USPS-Datenbank.
DataMatch bietet auch Planungsfunktionen für die Stapelverarbeitung von Datensätzen oder Sie können seine API nutzen, um Datenbereinigungs- oder Abgleichfunktionen in benutzerdefinierte Anwendungen zu integrieren und sofortige Ergebnisse zu erhalten.
Buchen Sie noch heute eine Demo oder laden Sie eine kostenlose Testversion herunter, um mehr darüber zu erfahren, wie wir Ihnen helfen können, das Beste aus Ihren Daten herauszuholen.