Blog

Gestion de la qualité des données : Quoi, pourquoi, comment et meilleures pratiques

Le problème le plus courant auquel les entreprises sont confrontées est celui de la qualité des données. Vous avez déployé les bonnes applications de données, les sources capturent le type de données dont vous avez besoin, il existe un système complet qui utilise et analyse les données collectées, et pourtant, les résultats ne sont pas satisfaisants. Lors d’une analyse plus poussée, vous constatez des différences entre les données attendues et la réalité ; les ensembles de données sont remplis de champs vides, d’abréviations et de formats incohérents, de modèles invalides, d’enregistrements en double et d’autres anomalies de ce type.

Pour éliminer ces problèmes, vous devez mettre en œuvre des mesures correctives qui valident et corrigent systématiquement les problèmes de qualité des données. Mais pour faire du rêve de la qualité des données une réalité, il est nécessaire de comprendre les bases de la qualité des données – sa signification, son impact et comment planifier l’amélioration. C’est pourquoi nous partageons avec vous un guide complet qui couvre tout ce qui a trait à la gestion de la qualité des données : ce qu’elle signifie, comment elle peut avoir un impact sur une entreprise, comment elle peut être gérée, à quoi elle ressemble dans divers secteurs verticaux, et plus encore.

Ce guide est divisé en trois parties :

  1. La qualité des données : Qu’est-ce que c’est et pourquoi est-ce important ?
  2. Les problèmes de qualité des données : Quels sont-ils, d’où viennent-ils et quel est leur impact sur l’entreprise ?
  3. Gestion de la qualité des données : Ce qu’elle signifie, ses piliers et ses meilleures pratiques, et quelques exemples concrets dans divers secteurs.

Commençons.

Qualité des données

Qu'est-ce que la qualité des données ?

La mesure dans laquelle les données répondent aux exigences d’une finalité prévue.

Les organisations stockent, gèrent et utilisent chaque jour de grands volumes de données. Si les données ne remplissent pas leur fonction, elles sont considérées comme étant de mauvaise qualité. Cette définition de la qualité des données implique que sa signification diffère selon l’organisation à laquelle elle appartient et l’objectif qu’elle sert. 

Pour certaines entreprises, l’exhaustivité des données peut être un meilleur indicateur de la qualité des données que leur exactitude. 

Cela conduit les entreprises à définir leur propre ensemble de caractéristiques et d’exigences pour maintenir la qualité des données dans toute l’organisation. Il existe une autre façon de définir la qualité des données :

Le degré auquel les données sont exemptes de défauts intolérables.

Les données ne peuvent jamais être exactes à cent pour cent et exemptes de défauts. Il y aura forcément des erreurs et c’est acceptable. Mais le fait d’avoir des défauts intolérables dans votre ensemble de données – qui nuisent à l’exécution de processus critiques – indique une mauvaise qualité des données. Vous devez vous assurer que la structure des données est conforme aux besoins et que son contenu est aussi exempt de défauts que possible.

Pourquoi la qualité des données est-elle importante ?

Le maintien de la propreté des données doit être un effort collectif entre les utilisateurs professionnels, le personnel informatique et les professionnels des données. Mais souvent, elle est simplement perçue comme un problème informatique, c’est-à-dire que les données deviennent sales lorsque certains processus techniques de capture, de stockage et de transfert des données ne fonctionnent pas correctement. Bien que cela puisse être le cas, les données nécessitent l’attention de tous les bonnes parties prenantes pour maintenir sa qualité dans le temps. Pour cette raison, il devient impératif de établir un argumentaire en faveur de la qualité des données devant les décideurs nécessaires, afin qu’ils puissent contribuer à sa mise en œuvre dans tous les services et à tous les niveaux.

Nous avons répertorié ci-dessous les avantages les plus courants de la qualité des données.

01. Prise de décision précise

Les chefs d’entreprise ne s’appuient plus sur des hypothèses, mais mais utilisent plutôt des techniques de business intelligence pour prendre de meilleures décisions. C’est… une bonne qualité des données peut permettre une prise de décision précise prise de décision précise tandis qu’une mauvaise qualité des données peut fausser les résultats de l’analyse des données et conduire les entreprises à fonder des décisions cruciales sur des prévisions erronées.

02. Efficacité opérationnelle

Les données font partie de toutes les opérations, petites et grandes, d’une entreprise. Qu’il s’agisse du produit, du marketing, des ventes ou des finances – exploiter efficacement les données dans tous les domaines est la clé. L’utilisation de données de qualité dans ces services peut amener votre équipe à éliminer les efforts redondants, à obtenir rapidement des résultats précis et à être productive tout au long de la journée.

03. Conformité

Conformité des données normes (telles que le GDPR, l’HIPAA et le CCPA) exigent des entreprises qu’elles suivent les principes de minimisation des données, de limitation de la finalité, de transparence, d’exactitude, de sécurité, de limitation du stockage et de responsabilité. La conformité à ces normes de qualité des données de données est n’est possible qu’avec des données propres et fiables.

04. Opérations financières

Les entreprises encourent d’énormes coûts financiers dus à la mauvaise qualité des données . Des opérations telles que le versement des paiements en temps voulu, la prévention des incidents de sous-paiement et de surpaiement, l’élimination des transactions incorrectes et l’élimination des risques d’erreur. la fraude dues à la duplication des données ne sont possibles qu’avec des données propres et de qualité.

05. Personnalisation et fidélisation des clients

Offrir des expériences personnalisées aux clients est le seul moyen de les convaincre d’acheter auprès de votre marque plutôt que d’un concurrent. Les entreprises utilisent une tonne de données pour comprendre le comportement et les préférences des clients. Grâce à des données précises, vous pouvez découvrir des acheteurs pertinents et leur offrir exactement ce qu’ils recherchent – ce qui garantit la fidélité des clients à long terme tout en leur donnant l’impression que votre marque les comprend comme personne d’autre.

06. Avantage concurrentiel

Presque tous les acteurs du marché ont utilisé les données pour comprendre la croissance future du marché et les éventuelles possibilités de vente incitative et croisée. L’alimentation de cette analyse en données de qualité provenant du passé vous aidera à créer un avantage concurrentiel sur le marché, convertir plus de clients et augmentez votre part de marché.

07. Numérisation

Numérisation des processus cruciaux peut vous aider à éliminer le travail manuel, à accélérer le temps de traitement et à réduire les erreurs humaines. Mais avec des données de mauvaise qualité, ces attentes ne peuvent être satisfaites. Au contraire, une mauvaise qualité des données vous obligera à vous retrouver dans un désastre numérique où la migration et l’intégration des données semblent impossibles en raison de structures de bases de données variables et de formats incohérents.

Problèmes de qualité des données

Un problème de qualité des données est défini comme suit :

un défaut intolérable dans un ensemble de données, tel qu’il affecte gravement la fiabilité de ces données.

Avant de passer à la mise en œuvre de mesures correctives pour valider, corriger et améliorer la qualité des données, il est impératif de comprendre ce qui pollue les données en premier lieu.. C’est pourquoi nous allons d’abord nous pencher sur la question :

Quels sont les problèmes de qualité des données les plus courants ?

No.Data quality issue Explanation Example of data quality issue
1Column duplication Multiple columns are present that have the same logical meaning. Product category is stored in two columns that logically mean the same: Category and Classification.
2Record duplication Multiple records are present for the same individual or entity. Every time a customer interacts with your brand, a new row is created in the database rather than updating the existing one.
3Invalid data Data values are present in an incorrect format, pattern, data type or size. Customer Phone Numbers are present in varying formats – some are stored as flat 10 digits, while others have hyphens, some are saved as a string, while others as numbers, and so on.
4Inaccurate data Data values do not conform to reality. Customer Name is incorrectly stored: Elizabeth is stored as Aliza, or Matt is stored as Mathew.
5Incorrect formulae Data values are calculated using incorrect formulae. Customer Age is calculated from their Date of Birth but the formula used is incorrect.
6Inconsistency Data values that represent the same information vary across different datasets and sources. Customer record stored in the CRM represents a different Email Address than the one present in accounts application.
7Missing data Data is missing or is filled with blank values. The Job Title of most customers is missing from the dataset.
8Outdated data Data is not current and represents outdated information. Customer Mailing Addresses are years old leading to returned packages.
9Unverified domain data Data does not belong to a range of acceptable values. Customer Mailing Addresses are years old leading to returned packages.

Comment les problèmes de qualité des données entrent-ils dans le système ?

Il existe de multiples moyens les erreurs de qualité des données peuvent se retrouver dans votre système. Voyons de quoi il s’agit.

01. Absence de modélisation appropriée des données

C’est la première et la plus importante raison des erreurs de qualité des données. Votre équipe informatique ne consacre pas le temps et les ressources nécessaires à l’adoption d’une nouvelle technologie, qu’il s’agisse d’une nouvelle application web, d’un système de base de données ou de l’intégration/migration entre des systèmes existants.

La modélisation des données permet d’organiser et de structurer vos actifs et éléments de données. Vos modèles de données peuvent être exposés à l’un des problèmes suivants :

a) Absence de contraintes hiérarchiques : Cela concerne les cas où il n’y a pas relation appropriée contraintes dans votre modèle de données. Par exemple, vous avez un ensemble de champs différents pour Clients existants et Nouveaux clientsmais vous utilisez un générique Client modèle pour les deux, plutôt que d’avoir Clients existants et Nouveaux clients en tant que sous-types du super-type Client.

b) Absence de cardinalité de la relation : Il s’agit du cas où aucun nombre n’est défini pour représenter le nombre de relations qu’une entité peut avoir avec une autre. Par exemple, un Commande ne peut avoir qu’une seule Remise à la fois.

c) Manque d’intégrité référentielle : Cela concerne le cas où un enregistrement dans un ensemble de données fait référence à un enregistrement dans un autre ensemble de données qui n’est pas présent. Par exemple, le Ventes fait référence à une liste de IDs de produits qui ne sont pas présents dans la table Produits des produits.

02. Manque d'identifiants uniques

C’est le cas lorsqu’il n’y a aucun moyen d’identifier de manière unique un enregistrement, ce qui vous amène à stocker des enregistrements en double pour la même entité. Les enregistrements sont identifiés de manière unique en stockant des attributs tels que Numéro de sécurité sociale pour les clients, Numéro de pièce du fabricant pour les produits, etc.

03. Absence de contraintes de validation

Il s’agit du cas où les valeurs de données ne sont pas soumises aux contrôles de validation requis avant d’être stockées dans la base de données. Par exemple, il s’agit de vérifier que les champs obligatoires ne sont pas manquants, de valider le modèle, le type de données, la taille et le format des valeurs de données, et de s’assurer également qu’elles appartiennent à une plage de valeurs acceptables.

04. Manque de qualité de l'intégration

Il s’agit du cas où votre entreprise dispose d’une base de données centrale qui se connecte à plusieurs sources et intègre les données entrantes pour représenter une source d’information unique. Si cette configuration ne dispose pas d’un moteur central de qualité des données pour nettoyer, normaliser et fusionner les données, elle peut donner lieu à de nombreuses erreurs de qualité des données.

05. Manque de compétences en matière de données

Malgré tous les efforts déployés pour protéger les données et leur qualité dans tous les ensembles de données, un manque de compétences en matière de données dans une organisation peut encore causer beaucoup de dommages à vos données. Les employés stockent souvent des informations erronées car ils ne comprennent pas la signification de certains attributs. De plus, ils ne sont pas conscients des conséquences de leurs actions, comme par exemple les implications de la mise à jour des données dans un certain système ou pour un certain enregistrement.

06. Erreurs de saisie des données

Les fautes de frappe ou d’orthographe sont l’une des sources les plus courantes d’erreurs de qualité des données. On sait que les humains commettent au moins 400 erreurs lors de la saisie de 10 000 données. Cela montre que même avec la présence d’identifiants uniques, de contrôles de validation et de contraintes d’intégrité, il est possible que l’erreur humaine intervienne et que la qualité de vos données se détériore.

Comment les questions de qualité des données sont-elles liées aux dangers de l'entreprise ?

Pour embarquer les décideurs concernés, il est important de leur expliquer comment les problèmes de qualité des données, petits et grands, ont un impact sur l’entreprise. impactent des affaires. A faille dans les données – matrice des risques commerciaux comme celle présentée ci-dessous, peut vous aider à le faire.

Problem IssueBusiness risk QuantifierCost
This is the data quality problem that resides in your dataset. These are the various issues that can arise due to the data problem. This is the impact the issue can have on the business. This quantifies the impact in terms of a business measure. This provides a periodic estimated cost incurred due to the business impact.
Example
Misspelled customer name and contact information Duplicate records created for the same customer Customer service: Increased number of inbound calls Increased staff time $30,000.00 worth more staff time required
Customer service: Decreased customer satisfaction Order reduction, lost customers ~500 less orders this year (as compared to estimated)

Gestion de la qualité des données

Nous avons abordé les principes fondamentaux de la qualité des données, les problèmes de qualité des données et leur lien avec les risques commerciaux. Maintenant il est temps de voir ce que la gestion de la qualité des données plan La question qui se pose est la suivante : comment fixer et gérer de manière cohérente la qualité des données au fil du temps et en tirer tous les avantages possibles pour votre entreprise ? Commençons.

Qu'est-ce que la gestion de la qualité des données ?

La gestion de la qualité des données est définie comme suit : La mise en œuvre d’un cadre systématique qui profile en permanence les sources de données, vérifie la qualité des informations et exécute un certain nombre de processus pour éliminer les erreurs de qualité des données – dans le but de rendre les données plus précises, correctes, valides, complètes et fiables. Étant donné que les exigences et les caractéristiques de la qualité des données sont différentes pour chaque organisation, la gestion de la qualité des données diffère également entre les entreprises. Les types de personnes dont vous avez besoin pour gérer la qualité des données, les paramètres dont vous avez besoin pour la mesurer, les processus de qualité des données que vous devez mettre en œuvre – tout dépend de multiples facteurs, tels que la taille de l’entreprise, la taille de l’ensemble de données, les sources concernées, etc. Nous abordons ici les principaux piliers de la mise en œuvre et de la gestion de la qualité des données, qui vous donneront une bonne idée de la manière de garantir la qualité des données dans votre entreprise en fonction de vos besoins spécifiques.

Quels sont les 5 piliers de la gestion de la qualité des données ?

Dans cette section, nous examinons les piliers les plus importants de la gestion de la qualité des données : les personnes, la mesure, les processus, le cadre et la technologie.

01. Les personnes : Qui est impliqué dans la gestion de la qualité des données ?

Il est communément admis que pour gérer la qualité des données dans l’ensemble de l’organisation, vous devez obtenir l’approbation et l’adhésion des décideurs. Mais la vérité est que vous avez besoin de professionnels des données nommés à différents niveaux d’ancienneté pour garantir que vos investissements dans les initiatives de qualité des données portent leurs fruits.

Voici quelques rôles qui sont soit responsables, soit redevables, soit consultés, soit informés sur le contrôle de la qualité des données dans une organisation :

a) Chief Data Officer (CDO) : Un Chief Data Officer (CDO) est un poste de direction, uniquement chargé de concevoir des stratégies permettant l’utilisation des données, le contrôle de la qualité des données et la gouvernance des données dans toute l’entreprise.

b) Responsable des données : Un responsable des données est la personne à contacter dans une entreprise pour toute question relative aux données. Ils sont totalement impliqués dans comment l’organisation saisit les données, où elle les stocke, ce qu’elles signifient pour les différents départements et comment leur qualité est maintenue tout au long de leur cycle de vie.

c) Dépositaire des données: A dépositaire des données est responsable de la structure des champs de données – y compris les structures et les modèles de base de données.

d) Analyste de données : Un analyste de données est une personne capable de prendre des données brutes et de les convertir en informations significatives, notamment dans des domaines spécifiques. L’une des principales tâches de l’analyste de données consiste à préparer, nettoyer et filtrer les données requises.

e) Autres équipes : Ces rôles sont considérés comme des consommateurs de données, ce qui signifie qu’ils utilisent les données – soit sous leur forme brute, soit lorsqu’elles sont converties en informations exploitables, comme les équipes de vente et de marketing, les équipes de produits, les équipes de développement commercial, etc.

02. Mesure : Comment la qualité des données est-elle mesurée ?

Le deuxième aspect le plus important de la gestion de la qualité des données est sa mesure. Il s’agit de caractéristiques de données et d’indicateurs de performance clés qui valident la présence de la qualité des données dans les ensembles de données organisationnelles. Selon la façon dont votre entreprise utilise les données, ces indicateurs clés de performance peuvent différer. J’ai listé les données les plus importantes qualité et la métrique de qualité qu’ils représentent :

data quality metrics steps

03. Processus : Quels sont les processus de qualité des données ?

Comme les données ont augmenté massivement au cours des dernières décennies, elles sont devenues multi-variables et sont mesurées dans de multiples dimensions. Pour récupérer, corriger et améliorer les problèmes de qualité des données, vous devez mettre en œuvre une variété de processus de qualité des données – où chacun d’entre eux sert un objectif différent et précieux. Examinons les processus de qualité des données les plus courants utilisés par les entreprises pour améliorer la qualité de leurs données.

a) Profilage des données

Il s’agit de comprendre l’état actuel de vos données en découvrant des détails cachés sur leur structure et leur contenu. Un algorithme de profilage des données analyse les colonnes d’un ensemble de données et calcule des statistiques pour diverses dimensions, telles que l’exhaustivité, l’unicité, la fréquence, le caractère et l’analyse des modèles, etc.

b) Nettoyage et normalisation des données

Il s’agit du processus d’élimination des informations incorrectes et invalides présentes dans un ensemble de données afin d’obtenir une vue cohérente et utilisable de toutes les sources de données. Il s’agit de supprimer et de remplacer les valeurs incorrectes, d’analyser des colonnes plus longues, de transformer les majuscules et les modèles, de fusionner des colonnes, etc.

c) Mise en correspondance des données

Également connu sous le nom de couplage de documents et résolution d’entités c’est le processus consistant à comparer deux ou plusieurs enregistrements et à déterminer s’ils appartiennent à la même entité. Il s’agit de cartographier les mêmes les colonnes, la sélection des colonnes à comparer, l’exécution des algorithmes de comparaison, l’analyse des résultats de la comparaison et le réglage des algorithmes de comparaison pour obtenir des résultats précis.

d) Déduplication des données

C’est le processus qui consiste à éliminer les enregistrements multiples qui appartiennent à la même entité et à ne conserver qu’un seul enregistrement par entité. Il s’agit notamment d’analyser les enregistrements en double dans un groupe, de marquer les enregistrements qui sont des doublons, puis de les supprimer de l’ensemble de données.

e) Fusion de données et survivance

Il est le processus d’élaboration de règles qui fusionnent les enregistrements en double par le biais d’une sélection et d’un écrasement conditionnels. Cela vous permet d’éviter la perte de données et de conserver un maximum d’informations à partir des doublons. Il s’agissait de définir des règles de sélection et d’écrasement des fiches, d’exécuter les règles et de les ajuster pour obtenir des résultats précis.

f) Données gouvernance

Le terme de gouvernance des données fait généralement référence à un ensemble de rôles, de politiques, de flux de travail, de normes et de mesures qui garantissent une utilisation et une sécurité efficaces des données et permettent à une entreprise d’atteindre ses objectifs commerciaux. Il s’agit de créer des rôles de données et d’attribuer des autorisations, de concevoir des flux de travail pour vérifier les mises à jour des informations, de s’assurer que les données sont à l’abri des risques de sécurité, etc.

g) Vérification de l’adresse

Il s’agit du processus consistant à comparer les adresses à une base de données faisant autorité – telle que celle de l’USPS aux États-Unis – et à valider que l’adresse est un lieu de distribution du courrier précis et valide dans le pays.

04. Cadre : Qu'est-ce qu'un cadre de qualité des données ?

Outre les processus de qualité des données, un autre aspect important à prendre en compte lors de la conception d’une stratégie de qualité des données est un cadre de qualité des données. de données. Les processus représentent des techniques autonomes utilisées pour éliminer les problèmes de qualité des données de vos ensembles de données. Une qualité de données cadre est un processus systématique qui permet de surveiller en permanence la qualité des données, de mettre en œuvre divers processus de qualité des données (dans un ordre défini) et de s’assurer qu’elle ne se détériore pas en dessous de seuils définis. Il donne plus de détails sur le déroulement du processus de gestion de la qualité des données.

Un cadre simple de qualité des données se compose de quatre étapes :

data quality lifecycle

a) Évaluer : Il s’agit de la première étape du cadre dans laquelle vous devez évaluer les deux principaux éléments : la signification de la qualité des données pour votre entreprise et la façon dont les données actuelles s’y comparent.

b) Conception : L’étape suivante du cadre de qualité des données consiste à concevoir les règles métier requises, en sélectionnant les processus de qualité des données dont vous avez besoin et en les adaptant à vos données, ainsi qu’en décidant de la conception architecturale des fonctions de qualité des données.

c) Exécuter : La troisième étape du cycle est celle de l’exécution. Vous avez préparé la scène dans les deux étapes précédentes, il est maintenant temps de voir comment le système fonctionne réellement.

d) Moniteur : Il s’agit de la dernière étape du cadre où les résultats sont contrôlés. Vous pouvez utiliser des techniques avancées de profilage des données pour générer des rapports de performance détaillés.

05. Technologie : Quels sont les outils de gestion de la qualité des données ?

Bien que la nature des problèmes de qualité des données soit assez complexe, de nombreuses entreprises continuent de valider manuellement la qualité des données, ce qui donne lieu à de multiples erreurs. L’adoption d’une solution technologique à ce problème est le meilleur moyen de garantir la productivité de votre équipe et la bonne mise en œuvre d’un cadre de qualité des données. Il existe de nombreux fournisseurs qui proposent des fonctions de qualité des données dans différentes offres, par exemple :

a) Qualité des données autonome et en libre-service logiciel :

Ce type de logiciel de gestion de la qualité des données vous permet d’exécuter une variété de processus de qualité des données sur vos données. Ils sont généralement dotés de fonctions automatisées de gestion de la qualité des données ou de traitement par lots permettant de nettoyer, de rapprocher et de fusionner de grandes quantités de données à des moments précis de la journée. C’est l’un des moyens les plus rapides et les plus sûrs de consolider des enregistrements de données, sans perdre aucune information importante puisque tous les processus sont exécutés sur une copie des données et que la vue finale des données peut être transférée vers une source de destination.

b) API ou SDK de qualité des données :

Certains fournisseurs exposent les fonctions nécessaires à la qualité des données par le biais API ou SDK . Cela vous permet d’intégrer toutes les fonctions de gestion de la qualité des données dans vos applications existantes en temps réel ou en cours d’exécution. Plus d’informations sur API de qualité des données : Fonctions, architecture et avantages.

c) Qualité des données intégrée dans les outils de gestion des données

Certains fournisseurs intègrent la qualité des données de données au sein de plateformes centralisées de gestion des données afin que tout soit pris en charge dans le même pipeline de données. La conception d’un système de gestion des données de bout en bout avec une fonction intégrée de qualité des données nécessite une planification et une analyse détaillées, ainsi que l’implication des principales parties prenantes à chaque étape du processus. Ces systèmes sont souvent présentés sous forme de gestion des données de base solutions.

En quoi la gestion de la qualité des données diffère-t-elle de la gestion des données de référence ?

c) Solutions internes personnalisées

Malgré les diverses solutions de qualité des données et de gestion des données de référence présentes sur le marché, de nombreuses entreprises investissent dans le développement d’une solution interne pour leurs besoins en données personnalisées. Bien que cela puisse sembler très prometteur, les entreprises finissent souvent par gaspiller un grand nombre de ressources – temps et argent – dans ce processus. L’élaboration d’une telle solution peut être plus facile à mettre en œuvre, mais elle est presque impossible à maintenir dans le temps.

Pour en savoir plus, vous pouvez lire notre livre blanc : Pourquoi les projets internes de qualité des données échouent .

Quelles sont les meilleures pratiques en matière de gestion de la qualité des données ?

Jetons un coup d’œil rapide aux meilleures pratiques en matière de qualité des données :

a) Déterminez la relation entre les données et les performances de l’entreprise et l’impact exact d’une mauvaise qualité des données sur vos buts et objectifs commerciaux.

b) Mesurer et maintenir la définition de la qualité des données en sélectionnant une liste de mesures qui vous permettront, à vous et à vos équipes, d’être sur la même longueur d’onde en ce qui concerne la qualité des données et ce qu’elle signifie pour votre organisation.

c) Établir rôles et responsabilités en matière de données dans l’ensemble de l’organisation afin de rendre les personnes responsables de l’obtention et du maintien de la qualité des données – du niveau supérieur au personnel opérationnel.

d) Former et éduquer les équipes sur les actifs de données et leurs attributs, sur la manière de traiter les données et sur l’impact de leurs actions sur l’ensemble de l’écosystème de données.

e) En permanence surveiller l’état des données grâce au profilage des données et découvrir des détails cachés sur leur structure et leur contenu.

f) Concevoir et maintenir des pipelines de données qui exécute une liste numérotée d’opérations opérations sur les données entrantes pour obtenir une source unique de vérité.

g) Effectuer analyse des causes profondes des erreurs de qualité des données afin de comprendre d’où proviennent ces erreurs et de résoudre ces problèmes à la source.

h) Utiliser la technologie pour atteindre et maintenir la qualité des données car aucun processus n’est promis à une bonne performance, et à un meilleur retour sur investissement, s’il n’est pas automatisé et optimisé par la technologie.

Vous voulez en savoir plus sur chacune de ces pratiques, lisez notre blog détaillé 8 meilleures pratiques pour assurer la qualité des données au niveau de l’entreprise .

Exemples concrets de gestion de la qualité des données

Dans cette dernière partie de notre guide, nous allons examiner quelques cas d’utilisation de la qualité des données et voir comment des marques renommées utilisent outils de nettoyage et de rapprochement des données pour gérer la qualité de leurs données et voir ce qu’elles ont à dire à ce sujet.

01. Gestion de la qualité des données dans le commerce de détail

Boucle est l’un des principaux détaillants haut de gamme de jeans, de vêtements de sport, de vêtements d’extérieur, de chaussures et d’accessoires, avec plus de 450 magasins dans 43 États. Buckle était confronté au défi de trier de grandes quantités d’enregistrements de données provenant de centaines de magasins. La principale tâche à accomplir était d’éliminer toutes les informations en double qui avaient été chargées dans leur système DB2 iSeries actuel. Ils cherchaient un moyen efficace de supprimer les données en double, qui représentaient environ 10 millions d’enregistrements.

DataMatch Enterprise™ a fourni une solution utilisable et plus efficace pour Buckle. L’entreprise a pu faire passer un grand nombre d’enregistrements par l’intermédiaire du processus de déduplication comme un seul projet utilisant un seul outil logiciel, plutôt que d’utiliser plusieurs méthodes différentes.

02. Gestion de la qualité des données dans les soins de santé

St. John Associates fournit des services de placement et de recrutement en cardiologie, médecine d’urgence, gastro-entérologie, chirurgie neurologique, neurologie, chirurgie orthopédique, et dans d’autres domaines. Avec une base de données croissante de candidats au recrutement, St. John Associates avait besoin d’un moyen de déduire, nettoyer et faire correspondre les enregistrements. Après plusieurs années d’exécution manuelle de cette tâche, l’entreprise a décidé qu’il était temps de déployer un outil permettant de réduire le temps passé à Dossiers de nettoyage .

Grâce à DataMatch Enterprise, St. John Associates a pu effectuer une première opération de nettoyage des données, en trouvant , fusionner et purger des centaines de milliers d’enregistrements en un court laps de temps. DataMatch™ a permis d’accélérer le processus de déduplication grâce à des algorithmes de correspondance floue et a facilité le tri des champs de données pour trouver les informations nulles. Il a également éliminé la nécessité d’une saisie manuelle, permettant aux utilisateurs d’exporter les modifications et de les télécharger selon les besoins.

03. Gestion de la qualité des données dans les services financiers

Banque Bell est l’une des plus grandes banques indépendantes du pays, avec des actifs de plus de 6 milliards de dollars et des activités dans les 50 États. En tant que grande banque privée, la Banque Bell traite avec de nombreux fournisseurs partenaires et des dizaines de lignes de services – du prêt hypothécaire à l’assurance, de la retraite à la gestion de patrimoine et bien d’autres encore. Avec des informations cloisonnées et stockées dans sources de données disparates la banque avait du mal à obtenir une vue unique et consolidée de ses clients, sans parler des dépenses inutiles liées à l’envoi de plusieurs courriers à un même fournisseur ou client.

DataMatch Enterprise est un élément essentiel de la solution interne de gestion des données de la banque. solution de gestion des donnéesCe qui leur permet de regrouper facilement les résultats et de remettre la liste des enregistrements de tous les clients qui semblent appartenir à une seule et même entité. Ce site vue consolidée aidera la banque à comprendre réellement l’association de son client avec la banque et les mesures qu’elle peut prendre pour renforcer cette association.

04. Gestion de la qualité des données dans les ventes et le marketing

TurnKey Auto Events mène des campagnes d’achat de voitures à fort volume pour des concessionnaires automobiles dans tout le pays. Ils produisent des événements qui incitent les acheteurs de voitures à y assister et à acheter des véhicules. En tant que prestataire de services qui fournit des pistes de vente aux vendeurs automobiles, TurnKey Marketing cherchait à recevoir des crédits pour les ventes supplémentaires réalisées auprès des différents concessionnaires avec lesquels il est en partenariat.

En étant en mesure de faire correspondre les ventes avec la multitude de prospects potentiels auxquels ils parlent quotidiennement, ils reçoivent un crédit de vente (et gagnent de l’argent) pour chaque piste. En utilisant DataMatch™, le système sophistiqué de Data Ladder mise en correspondance des données l’entreprise a pu faire correspondre des enregistrements provenant de plusieurs sources. À partir de là, ils ont pu créer une vue d’ensemble de la vente potentielle d’une voiture au fil du temps.

05. Gestion de la qualité des données dans l'éducation

Université de Virginie occidentale est la seule université de recherche de l’État qui délivre des diplômes de doctorat. L’école propose près de 200 programmes diplômants au niveau du premier cycle, du deuxième cycle, du doctorat et des professions libérales. Ils ont été chargés d’évaluer les effets à long terme de certaines conditions médicales sur les patients pendant une période prolongée. Les données relatives aux conditions médicales et les dossiers de santé actuels fournis par l’État existent en systèmes séparés.

Grâce à DataMatch™, le produit phare de Data Ladder pour le nettoyage des données, l’université a pu nettoyer les enregistrements provenant de plusieurs systèmes et contenant les informations requises. A partir de là, ils ont pu créer une vue unifiée du patient au fil du temps.

Le mot de la fin

Les chefs d’entreprise comprennent l’importance des données – des opérations de routine à la veille stratégique avancée, elles sont utilisées partout. Mais la plupart des équipes qui travaillent avec des données passent des heures supplémentaires à cause du travail en double, du manque de connaissance des données et de résultats erronés. Et tous ces problèmes sont dus à une gestion médiocre ou inexistante de la qualité des données.

Investir dans des outils de qualité des données, tels que DataMatch Enterprise vous aidera certainement à vous lancer dans la gestion de la qualité des données. DataMatch vous fera passer par les différentes étapes du nettoyage et du rapprochement des données. En commençant par l’importation de données à partir de diverses sources, il vous guide à travers profilage de données , nettoyage , normalisation et déduplication . En plus de cela, son vérification des adresses vous permet de vérifier les adresses par rapport à la base de données officielle de l’USPS.

DataMatch offre également des fonctions de planification pour le traitement des enregistrements par lots. Vous pouvez également utiliser son API pour intégrer des fonctions de nettoyage ou de rapprochement des données dans des applications personnalisées et obtenir des résultats instantanés.

Réservez une démonstration aujourd’hui ou téléchargez une version d’essai gratuite pour en savoir plus sur la façon dont nous pouvons vous aider à tirer le meilleur parti de vos données.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.