Blog

5 processus de qualité des données à connaître avant de concevoir un cadre DQM

Written by lbarrera
mars 21, 2022

La plupart des entreprises qui tentent d’adopter une approche orientée données citent la mauvaise qualité des données comme l’un des cinq principaux défis à relever. Invesp a publié un rapport qui révèle que 54 % des entreprises considèrent les données incomplètes et la mauvaise qualité des données comme le principal obstacle au marketing guidé par les données.

Les chefs d’entreprise comprennent l’importance de l’utilisation des données dans les différents départements fonctionnels. Mais les données sont aujourd’hui bien plus complexes qu’elles ne l’étaient il y a dix ans. Elle est multi-variable, ce qui implique qu’elle soit mesurée dans de multiples dimensions; elle change aussi fréquemment et son volume a augmenté de façon exponentielle. Les organisations se rendent compte que les simples techniques de gestion de la qualité des données ne suffisent pas. Ils doivent mettre en œuvre un cadre de qualité des données de bout en bout qui corrige les erreurs actuelles et prévient les erreurs futures.

Dans ce blog, nous allons examiner les processus de qualité des données les plus courants et les plus cruciaux. Vous pouvez utiliser ces informations pour voir ce qui peut éventuellement profiter à votre cas.

Processus de qualité des données par rapport au cadre / cycle de vie de la qualité des données

Avant de poursuivre, il est important de mentionner que ce blog met en avant les processus individuels et autonomes qui peuvent être utilisés pour améliorer la qualité de vos données. L’ordre dans lequel ils doivent être mis en œuvre n’est pas discuté ici. C’est là qu’un cadre de qualité des données peut être utile.

Un cadre de qualité des données vous indique le nombre exact et l’ordre des processus que vous devez effectuer sur vos données pour améliorer leur qualité. Par exemple, vous pouvez commencer votre cycle de vie de la qualité des données en établissant le profil des erreurs et en trouvant des possibilités de nettoyage. De même, vous pouvez terminer le cycle de vie par un profilage des données, juste pour voir si des erreurs subsistent. C’est ce que définit un cadre de qualité des données.

Nous examinons ici les processus individuels qui sont utilisés lors de la mise en œuvre d’un cadre de qualité des données. Le cadre lui-même dépend de la nature de vos données, de leur état de qualité actuel, de la technologie utilisée et de ce que vous souhaitez obtenir.

Processus de qualité des données

1. Profilage des données

Le profilage des données consiste simplement à comprendre l’état actuel de vos données en découvrant des détails cachés sur leur structure et leur contenu. Un algorithme de profilage des données analyse les colonnes de l’ensemble des données et calcule des statistiques pour diverses dimensions, telles que :

Analyse de la complétude : Pourcentage de champs manquants ou incomplets.
Analyse de l’unicité : Pourcentage de valeurs non dupliquées ou distinctes dans une colonne.
Analyse de fréquence : Compte des valeurs les plus fréquentes dans une colonne.
Analyse des caractères : Compte des valeurs contenant des lettres, des chiffres ou les deux, ainsi que la ponctuation, les espaces avant/arrière, les caractères non imprimables, etc.
Analyse statistique : Minimum, maximum, moyenne, médiane et mode pour les colonnes numériques.
Analyse de modèle : Compte des valeurs qui suivent le modèle et le format corrects.
Analyse générale : Compte des valeurs qui suivent le type de données correct et se situent dans une plage acceptable de longueur de caractères.

Un rapport détaillé sur le profil des données qui contient de telles informations peut faire des merveilles pour votre initiative de gestion de la qualité des données. Elle peut être effectuée à plusieurs étapes de votre cycle de vie pour comprendre comment les processus de qualité des données ont un impact sur les données.

Pour en savoir plus sur le profilage des données, lisez ce blog : Qu’est-ce que le profilage des données : Portée, techniques et défis.

2. Nettoyage et normalisation des données

Le nettoyage et la normalisation des données sont le processus d’élimination des informations incorrectes et invalides présentes dans un ensemble de données afin d’obtenir une vue cohérente et utilisable de toutes les sources de données.

Parmi les activités courantes de nettoyage et de normalisation des données, citons :

Supprimez et remplacez les valeurs vides, les espaces avant/arrière, les caractères et les chiffres spécifiques, les ponctuations, etc.
Analyse les colonnes agrégées ou longues en sous-composants plus petits, comme le champ Adresse en numéro de rue, nom de rue, ville, etc.
Transformez les cas de lettres (de haut en bas ou de bas en haut) pour assurer une vue cohérente et standardisée.
Fusionnez les colonnes identiques ou similaires pour éviter les colonnes dupliquées.
Transformer les valeurs d’une colonne pour qu’elles suivent le modèle et le format corrects.
Effectuez des opérations(marquer, remplacer, supprimer) sur les mots les plus répétitifs d’une colonne pour éliminer le bruit en masse.

Pour en savoir plus sur le nettoyage et la normalisation des données, lisez ce blog : Le guide complet des outils, solutions et meilleures pratiques de nettoyage des données au niveau de l’entreprise.

3. Mise en correspondance des données

Lerapprochement des données (également connu sous le nom de couplage d’enregistrements et de résolution d’entités) est le processus consistant à comparer deux ou plusieurs enregistrements et à déterminer s’ils appartiennent à la même entité.

Un processus de rapprochement des données comporte généralement les étapes suivantes :

Mettez en correspondance les colonnes de diverses sources de données pour faire correspondre les doublons entre les ensembles de données.
Sélectionnez les colonnes sur lesquelles portera la correspondance. Pour une correspondance avancée, vous pouvez sélectionner plusieurs colonnes et les classer par ordre de priorité afin d’augmenter la précision des résultats de la correspondance.
Exécutez des algorithmes de correspondance des données; si votre ensemble de données contient des identifiants uniques, vous pouvez effectuer une correspondance exacte qui vous indique exactement si deux enregistrements correspondent ou non. En l’absence d’identifiants uniques, vous devrez effectuer une correspondance floue qui calcule la probabilité que deux enregistrements soient similaires.
Analysez les scores de correspondance qui indiquent dans quelle mesure deux ou plusieurs enregistrements sont des doublons.
Réglez les algorithmes de correspondance pour minimiser le nombre de faux positifs et négatifs.

Pour en savoir plus sur le rapprochement des données, lisez ces blogs :

4. Déduplication des données

La déduplication des données est le processus qui consiste à éliminer les enregistrements multiples qui appartiennent à la même entité. C’est l’un des plus grands défis à relever lors de la gestion de la qualité des données. Ce processus vous permet de conserver les informations correctes et d’éliminer les enregistrements en double.

Le processus d’élimination des doublons comprend :

Analysez les groupes de doublons pour identifier le disque d’or.
Marquez le reste des enregistrements comme ses doublons.
Supprimez les enregistrements en double

Pour en savoir plus sur la déduplication des données, lisez ces blogs :

5. Fusion des données et survivance

La fusion et la survivance des données est le processus d’élaboration de règles qui fusionnent les enregistrements en double par le biais d’une sélection et d’un écrasement conditionnels. Cela vous permet d’éviter la perte de données et de conserver un maximum d’informations à partir des doublons.

Ce processus comprend :

Définir des règles de sélection des fiches en fonction d’une colonne qui se prête à une certaine opération (par exemple, la fiche est celle dont le prénom est le plus long).
Définissez des règles pour écraser les données des enregistrements en double sur la fiche (par exemple, écrasez le code postal le plus court des enregistrements en double sur la fiche).
Exécuter les règles créées pour la sélection et l’écrasement conditionnels des fiches.
Adaptez la configuration des règles pour éviter la perte d’informations importantes.

Pour en savoir plus sur la fusion de données et la purge, lisez ce blog : Un guide rapide de la purge de la fusion de données.

Processus supplémentaires

En plus des processus mentionnés ci-dessus, il existe quelques autres processus qui sont une partie nécessaire du cycle de vie de la gestion de la qualité des données.

1. Intégration des données

L’intégration des données est le processus qui consiste à connecter et à combiner des données provenant de plusieurs sources disparates – y compris des formats de fichiers, des bases de données relationnelles, un stockage en nuage et des API – et à les fusionner pour obtenir des données propres et normalisées.

Il s’agit d’un élément important du cadre de gestion de la qualité des données, car les données provenant de différentes sources doivent être rassemblées avant d’être transformées pour obtenir une vue cohérente et normalisée.

Pour en savoir plus sur l’intégration des données, lisez ce blog : Fusionner des données provenant de sources multiples – défis et solutions.

2. Exportation ou chargement de données

L’exportation des données est le processus de chargement des données nettoyées, normalisées, appariées, dédupliquées et fusionnées vers la source de destination. Tout comme l’intégration des données, l’exportation/le chargement des données est également un élément important du cadre de gestion de la qualité des données, puisque les données doivent être chargées dans une source centrale qui peut être utilisée par tous ceux qui en ont besoin.

Vous devez considérer certains facteurs cruciaux avant de charger les données vers une source de destination. Par exemple, la source contient-elle des données plus anciennes qui peuvent éventuellement causer des conflits pendant le processus de chargement ? Il faut également évaluer le modèle de données suivi par la source et s’assurer que les données entrantes sont conçues en conséquence.

Pour en savoir plus sur l’exportation/le chargement de données, lisez ce blog : Votre guide complet pour une migration de données réussie.

Conclusion

Voilà une liste des principaux processus de qualité des données à connaître avant votre prochaine initiative de gestion de la qualité des données. En fonction de l’état actuel de la qualité de vos données et de la vue des données que vous souhaitez obtenir, vous pouvez sélectionner les processus nécessaires, les concevoir dans un cadre de gestion de la qualité des données et les mettre en œuvre dans le pipeline de données.

Un outil de qualité des données qui facilite ces processus de qualité des données peut améliorer de façon exponentielle les performances et la productivité de votre équipe de qualité des données. DataMatch Enterprise est l’un de ces outils, capable d’exécuter tous les processus de qualité des données mentionnés ci-dessus en moins de 12 minutes pour 2 millions d’enregistrements. Si vous souhaitez en savoir plus, vous pouvez télécharger une version d’essai de notre logiciel ou réserver une démonstration avec nos experts.

En outre, j’ai mis en lien ci-dessous quelques bonnes lectures qui vous aideront dans votre parcours DQM.

Try data matching today

No credit card required

« * » indique les champs nécessaires

Want to know more?

Check out DME resources

Aïe ! Nous n’avons pas retrouvé votre formulaire.

PAR CARACTÉRISTIQUE

PAR CAS D'UTILISATION

PAR INDUSTRIE

NOS PRODUITS

À PROPOS DE NOUS

CLIENTS

COMPARER

CONNAISSANCES

SUPPORT