Blog

Le guide définitif de l’acheteur d’outils de qualité des données

Une enquête récente a indiqué que le principal indicateur clé de performance des équipes chargées des données en 2021 était la qualité et la fiabilité des données. Mais la majorité des personnes interrogées ont déclaré ne pas utiliser de logiciel ou d’outil de qualité des données, et s’en remettre à des contrôles manuels de la qualité des données. Ainsi, le plus grand défi auquel sont confrontées les équipes chargées des données est la faible productivité due au travail manuel et au manque de processus automatisés.

Nombreux sont les chefs d’entreprise et les décideurs qui envisagent d’adopter des technologies et d’automatiser des processus, mais rares sont ceux qui passent à l’action. Il en va de même pour les équipes chargées des données dans la plupart des organisations. Il est vrai que l’introduction d’une nouvelle technologie pour numériser n’importe quel aspect de votre entreprise peut potentiellement perturber les processus existants et découvrir de multiples défis. Mais la résolution de ces problèmes peut s’avérer très bénéfique à long terme – notamment pour la productivité et les performances de votre équipe, ainsi que pour la cohérence des résultats commerciaux.

Ce blog vous aidera à comprendre les différentes caractéristiques et fonctionnalités des outils de qualité des données et les facteurs à prendre en compte lors du choix d’une solution de qualité des données pour votre cas d’utilisation spécifique.

Caractéristiques à rechercher dans un outil de qualité des données

Lors de l’achat d’un logiciel, il faut tenir compte de trois aspects importants. Il s’agit notamment de :

  1. Les processus du monde réel que la solution peut faciliter,
  2. Les fonctionnalités et capacités supplémentaires qui améliorent l’exécution de ces processus,
  3. Les caractéristiques intrinsèques de la plate-forme qui améliorent l’efficacité du travail.

Ci-dessous, nous couvrons tous ces aspects de manière plus détaillée pour les outils de qualité des données :

1. Processus de qualité des données

Vos données sont probablement polluées par une variété d’erreurs de qualité de données. Et pour résoudre ces problèmes, il faut les soumettre à un cycle de vie complet de gestion de la qualité des données, de bout en bout.

La gestion de la qualité des données comprend généralement une liste de processus systématiques. Le nombre exact et la nature de ces processus dépendent de vos besoins ainsi que de l’état de vos données. Examinons les processus de qualité des données les plus courants et les plus importants qu’un outil de qualité des données doit faciliter, ainsi que la signification de chacun d’entre eux.

a. Ingestion de données

La capacité de connecter, d’ingérer et d’intégrer des données provenant d’une variété de sources de données – y compris la prise en charge de divers formats de fichiers, de bases de données, de stockage sur site et en nuage, ainsi que d’applications tierces.

b. Profilage des données

La possibilité d’obtenir instantanément une vue à 360° de la qualité de vos données en identifiant les valeurs vides, les types de données des champs, les modèles récurrents et d’autres statistiques descriptives qui mettent en évidence l’état de vos données et les possibilités de nettoyage des données.

c. Analyse syntaxique des données

La capacité d’analyser de longues chaînes de caractères et d’identifier les composants importants – afin qu’ils puissent être validés par rapport à une bibliothèque de valeurs précises. Par exemple, l’analyse des noms complets pour identifier le prénom, le second prénom et le nom de famille, et la conversion des surnoms et autres abréviations en noms propres.

d. Nettoyage et normalisation des données

La possibilité d’éliminer les valeurs incohérentes et invalides, de créer et de valider des modèles, de transformer les formats et d’obtenir une vue normalisée de toutes les sources de données.

e. Configuration et exécution de la correspondance des données

La capacité de sélectionner, de configurer et d’exécuter des algorithmes de mise en correspondance de données exclusifs ou à la pointe de l’industrie, et de les affiner en fonction de la nature des ensembles de données pour identifier les correspondances potentielles d’enregistrements.

f. Analyse des résultats de la correspondance des données

La possibilité d’évaluer les résultats des correspondances et leurs niveaux de confiance pour signaler les fausses correspondances ainsi que pour déterminer la fiche principale.

g. Déduplication des données

La possibilité de signaler et d’éliminer les enregistrements en double, c’est-à-dire les enregistrements qui se rapportent à la même entité.

h. Fusion des données et survie

La possibilité de fusionner des enregistrements en concevant une liste hiérarchisée de règles personnalisées pour la sélection automatique des fiches et l’écrasement conditionnel des données.

i. Exportation ou chargement de données

La possibilité de charger ou d’exporter les résultats vers le fichier source ou toute autre source de destination.

2. Caractéristiques supplémentaires pour améliorer l’exécution du processus

De nombreux vendeurs et prestataires de services prétendent faciliter la numérisation de certains processus. Mais les fonctionnalités offertes pour améliorer l’exécution de ces processus sont un aspect important à considérer pour évaluer ce qu’un outil logiciel peut faire pour vous. Quelques exemples de telles caractéristiques dans un outil de qualité des données sont présentés ci-dessous :

a. Normalisation en vrac pour éliminer le bruit

Souvent, un ensemble de données contient certains mots qui n’ajoutent pas beaucoup de valeur à vos colonnes de données et ne font qu’augmenter le bruit. Ces mots peuvent poser des problèmes lors des processus de normalisation et de rapprochement des données.

Pour supprimer le bruit, l’équipe chargée de la qualité des données vérifie, remplace, signale ou supprime manuellement chaque mot bruyant présent dans un ensemble de données. C’est là qu’un outil spécialisé dans les mots peut être très utile. Comme son nom l’indique, un outil d’analyse des mots établit le profil d’une colonne de données afin de repérer les mots les plus répétitifs présents dans cette colonne et leur nombre, et vous permet d’effectuer des opérations de masse sur ces mots.

Par exemple, dans l’ensemble de données d’une entreprise, vous pouvez avoir trois valeurs différentes :

  1. XYZ LLC
  2. XYZ Inc.
  3. XYZ Incorporated

Vous pouvez constater que les trois noms de sociétés sont en fait les mêmes, et que les mots « LLC », « Inc. » ou « Incorporated » ne font qu’ajouter du bruit et produire des doublons de la même entité. Un outil de traitement des mots peut vous aider à supprimer ces mots de l’ensemble de la colonne, en ne conservant que les noms des entreprises.

Un outil de qualité des données qui profile et normalise vos ensembles de données jusqu’au niveau des mots en vrac peut améliorer de façon exponentielle la productivité de votre équipe, puisqu’il peut lui faire gagner beaucoup de temps et d’efforts.

b. Modèles de motifs intégrés et personnalisés

Lors du nettoyage et de la normalisation des ensembles de données, vous devez souvent valider les modèles et les formats des valeurs de données. Les outils de qualité des données qui intègrent des modèles de reconnaissance des formes améliorent l’efficacité de vos processus de normalisation et de validation des données.

Ces modèles préétablis peuvent aider à valider le modèle de champs courants, tels que les adresses électroniques, les numéros de téléphone américains, les horodatages, et bien plus encore.

De plus, si le logiciel de qualité des données prend en charge la conception d’expressions régulières personnalisées et la validation de modèles propriétaires, cela peut s’avérer très utile pour vos exigences particulières.

c. Planifier les tâches de qualité des données pour le traitement par lots

Bien que les outils de données puissent numériser et automatiser de nombreux processus, ils nécessitent toujours une interaction humaine :

  • Initialiser le processus et fournir des données,
  • Superviser l’exécution du processus,
  • Vérification des résultats, et déplacement de la sortie vers la source de destination.

La planification des tâches de qualité des données pour le traitement par lots est une fonction cruciale qui peut vous aider à gérer efficacement de grandes quantités de données. Vous pouvez programmer les tâches de qualité des données les plus fréquentes ou les plus répétitives et elles seront déclenchées à une date et une heure précises chaque jour, semaine ou mois, comme prévu.

C’est un élément qui peut réduire le temps de maintenance, minimiser l’erreur humaine et fournir des résultats cohérents sur une base régulière.

d. Intégration en temps réel des fonctions de qualité des données

Par opposition au traitement par lots, certaines entreprises exigent que les données soient traitées en continu. Cela signifie que la qualité des données entrantes est testée en cours d’exécution et qu’elles sont transformées si nécessaire avant d’être chargées vers la source de destination.

Cela peut probablement ajouter une certaine complexité à votre processus de gestion de la qualité des données au départ. Mais une fois que vous avez compris le flux de qualité des données en temps réel, cela peut être très bénéfique. Certains fournisseurs proposent cette capacité sous la forme d’une API ou d’un SDK afin que vous puissiez adopter des fonctions de qualité des données de niveau industriel et les mettre en œuvre dans vos flux de qualité des données personnalisés.

e. Vérification d’adresse certifiée par le CASS

Dans toute organisation, de nombreux objets de données de base contiennent des champs d’adresse. Par exemple, l’adresse d’un client, l’adresse d’un magasin, l’adresse d’un employé, etc. Lorsqu’il s’agit de vérifier ou de normaliser les adresses, les outils de qualité des données simples ou généralisés n’offrent pas beaucoup de valeur. Et vérifier qu’une adresse est un lieu physique, qu’elle peut être postée dans le comté et qu’elle respecte un format mondialement acceptable peut devenir un défi de taille.

Une capacité intégrée des outils de qualité des données à vérifier les adresses par rapport à une base de données officielle faisant autorité (comme l’USPS aux États-Unis) est une nécessité dans de tels cas. Et lorsque vous recherchez de telles caractéristiques, assurez-vous qu’ils sont certifiés pour offrir de tels services.

Par exemple, le CASS (Coding Accuracy Support System) est un programme de certification de l’USPS visant à garantir que les fournisseurs de logiciels utilisent correctement les informations de l’USPS pour valider et normaliser les données d’adresses pour leurs utilisateurs. Pour obtenir la certification CASS, les fournisseurs de logiciels doivent proposer la validation du point de livraison (DPV) et un système de conversion d’adresses localisables dans leurs services.

3. Capacités intrinsèques de la plate-forme

Dans toute organisation, la principale raison de numériser les processus et d’adopter la technologie est d’améliorer l’efficacité du travail. C’est pourquoi il ne suffit pas qu’un outil logiciel facilite uniquement les scénarios du monde réel. Il doit offrir certaines fonctionnalités de base qui facilitent et accélèrent le travail, et améliorent la précision des résultats.

Pour un outil de qualité des données, de telles caractéristiques peuvent inclure :

a. Vitesse

Les processus de qualité des données mentionnés ci-dessus sont généralement complexes sur le plan informatique et nécessitent beaucoup de ressources. Et un outil logiciel non optimisé et mal architecturé peut prendre des heures pour traiter des tâches simples. Avant de choisir un outil, il est important de le tester et d’évaluer sa rapidité à produire des résultats sur différents échantillons de données. En plus de cela, vous devez également vérifier si l’outil est capable de traiter les enregistrements de manière constante à une vitesse similaire.

[DataMatch Enterprise prend environ 2 minutes pour nettoyer et normaliser 2 millions d’enregistrements].

b. Précision

Une vitesse plus rapide n’est d’aucune utilité lorsque les résultats sont imprécis ou incohérents. Les outils de qualité des données qui mettent en œuvre des algorithmes propriétaires de qualité industrielle pour le profilage, le nettoyage, la normalisation, la mise en correspondance et la fusion des données peuvent générer des résultats plus précis que ceux qui utilisent de simples algorithmes statistiques ou conditionnels.

Bien entendu, même le meilleur des outils ne peut se révéler exact à 100 % en permanence. L’objectif doit être de rechercher un outil qui offre une précision maximale de manière cohérente sur une variété d’échantillons de données.

[DataMatch Enterprise se révèle d’une précision de 96 % pour des échantillons de 40 000 à 8 millions d’enregistrements.]

c. Évolutivité

Évaluez si l’outil de qualité des données est évolutif et peut supporter une quantité croissante de données ainsi que d’utilisateurs. Votre entreprise ne dispose peut-être pas de grands ensembles de données pour le moment, mais la taille des données peut augmenter de manière exponentielle avec le temps. En outre, il se peut que vous commenciez par un seul membre de l’équipe qui utilisera l’outil, mais que vous souhaitiez par la suite ajouter d’autres utilisateurs à votre plan. Assurez-vous que le fournisseur offre de telles fonctions et plans d’extensibilité.

d. Utilisabilité

Un outil de qualité des données doté d’une interface utilisateur plus simple et axé sur l’adaptabilité de l’utilisateur est un élément important à prendre en considération. L’outil doit être auto-explicatif et doit guider l’utilisateur pas à pas à travers les différents processus de qualité des données. Une interface intuitive avec une écriture UX facile peut aider les utilisateurs professionnels à effectuer des tâches techniques confortablement dans le logiciel, comme la connexion aux bases de données, l’évaluation des rapports de profil de données, le réglage des algorithmes de correspondance, etc.

e. Soutien

Le nettoyage et la mise en correspondance d’énormes quantités de données peuvent sembler insurmontables, même en présence d’un outil de qualité des données approprié. Si un fournisseur propose une assistance, une formation ou d’autres services professionnels pour vous aider à démarrer ou à naviguer dans le processus lorsque vous êtes bloqué, cela peut être très utile pour votre équipe.

Comment ces fonctionnalités sont-elles intégrées dans les outils logiciels ?

Après avoir évalué les caractéristiques et les capacités d’un outil de qualité des données, il est important de comprendre comment les fournisseurs intègrent généralement ces capacités dans leurs offres de produits et de services.

1. Outils autonomes de qualité des données en libre-service

Ces outils ont plus ou moins les mêmes caractéristiques que celles mentionnées ci-dessus. Ils ne se connectent pas à d’autres sources de données en temps réel, et ces outils sont donc principalement utilisés pour le traitement par lots (y compris le profilage, le nettoyage, la normalisation, la mise en correspondance et la fusion des données), puis le chargement des enregistrements consolidés vers la source de destination.

Parmi les avantages supplémentaires, citons

  • Le moyen le plus rapide et le plus sûr de consolider les enregistrements de données.
  • Il est plus facile d’affiner les algorithmes de correspondance et les règles de fusion en fonction de la nature actuelle des données.
  • Certains de ces outils sont dotés de dictionnaires de mots spécialisés qui permettent de trouver des mots exacts (par exemple, le prénom, le second prénom et le nom de famille) et de remplacer les champs mal orthographiés ou manquants.
  • Certains outils permettent également de planifier les tâches de gestion de la qualité des données et de générer des enregistrements consolidés à des moments précis.
  • Particulièrement utile pour consolider les listes de marketing par courriel, les contacts et les dossiers des clients.

2. API ou SDK de qualité des données

Certains fournisseurs exposent les fonctions nécessaires à la qualité des données par le biais d’API ou de SDK. Cela vous permet d’intégrer toutes les fonctions de gestion de la qualité des données dans vos applications existantes en temps réel ou en cours d’exécution.

Cela peut nécessiter quelques efforts supplémentaires, mais certains avantages en découlent :

  • Utile lors de la mise en œuvre de flux personnalisés (notamment pour la gouvernance des données) qui sont importants pour les besoins de votre entreprise.
  • Peut potentiellement agir comme un pare-feu de qualité des données pour votre entrepôt de données, où la qualité des données entrantes est testée avant leur entrée.

3. La qualité des données est intégrée dans les outils de gestion des données

Il est important de comprendre ici que certains fournisseurs intègrent des fonctions de qualité des données dans des plates-formes centralisées de gestion des données afin que tout soit pris en charge dans le même pipeline de données. Bien que cela puisse sembler être une très bonne approche, il y a certains défis à prendre en compte lors du choix d’un outil de gestion et de qualité des données. Par exemple, pour concevoir un système de gestion des données de bout en bout avec des fonctions de qualité des données intégrées, vous devrez effectuer une planification et une analyse détaillées et impliquer les principales parties prenantes à chaque étape du processus.

Ces systèmes sont souvent présentés comme des solutions de gestion des données de référence. Le terme « gestion des données de référence » fait référence à un ensemble de bonnes pratiques en matière de gestion des données, ce qui implique l’intégration des données, leur qualité et leur gouvernance.

Selon l’objectif et l’utilisation d’un MDM, ils peuvent être présentés comme opérationnels (utilisés dans les opérations de données de routine) ou analytiques (utilisés à des fins d’analyse ou de veille stratégique).

4. Solutions internes personnalisées

Malgré les diverses solutions de qualité des données et de gestion des données de référence présentes sur le marché, de nombreuses entreprises investissent dans le développement d’une solution interne pour leurs besoins en données personnalisées. Bien que cela puisse sembler très prometteur, les entreprises finissent souvent par gaspiller un grand nombre de ressources – temps et argent – dans ce processus. Le développement d’une telle solution peut être plus facile à mettre en œuvre, mais il est presque impossible de la maintenir dans le temps.

Pour en savoir plus sur ce sujet, vous pouvez lire notre livre blanc : Pourquoi les projets internes de qualité des données échouent.

Facteurs à prendre en compte lors du choix d’un outil de qualité des données

Maintenant que nous avons vu les principales capacités et caractéristiques d’une solution de qualité des données, ainsi que la façon dont les différents fournisseurs les présentent comme des outils, il y a quelques facteurs supplémentaires que vous devez prendre en compte avant de prendre la décision finale. Il s’agit notamment de :

1. Les besoins de l’entreprise

Toutes les solutions ne répondent pas à toutes vos exigences. L’objectif est de trouver l’outil qui répond le mieux à vos besoins. Une autre étape utile consiste à identifier vos indicateurs clés de performance (ICP) en matière de qualité des données. La qualité des données peut avoir une signification différente selon les organisations. Une fois que vous aurez réalisé et identifié votre propre définition de la « qualité des données », il sera plus facile de savoir quelle solution la facilitera le mieux et vous aidera à introduire, maintenir et pérenniser la qualité des données dans vos principaux actifs de données.

2. Temps et budget

L’adoption de toute solution technologique nécessite un investissement en temps et en budget. Certains outils – en particulier ceux qui couvrent la gestion des données de bout en bout – nécessitent plus de temps, de réflexion, de planification préalable et d’implication des parties prenantes.

En outre, vous pouvez comparer les prix et les plans proposés par différents fournisseurs pour comprendre quel outil convient le mieux à votre budget.

3. Préférences de l’équipe chargée de la qualité des données

C’est le dernier point de décision, et certainement le plus important. De nombreuses personnes peuvent générer des données dans votre organisation, mais la responsabilité de la gestion de leur qualité peut être confiée à votre équipe chargée de la qualité des données – qui comprend des analystes de données, des gestionnaires de données ou des responsables de données. C’est pourquoi il est préférable de leur permettre de choisir l’outil dont ils ont besoin et qu’ils utiliseront dans leurs activités quotidiennes.

Conclusion

Quelle que soit la compétence de votre équipe chargée de la qualité des données, elle aura toujours du mal à maintenir des niveaux acceptables de qualité des données tant qu’elle ne disposera pas des bons outils. C’est là qu’un outil de gestion de la qualité des données peut s’avérer utile. Un outil tout-en-un, en libre-service, qui permet de profiler les données, d’effectuer diverses activités de nettoyage des données, de faire correspondre les doublons et de produire une source unique de vérité, peut devenir un facteur de différenciation important dans la performance des gestionnaires de données ainsi que des analystes de données.

DataMatch Enterprise est l’un de ces outils qui aide les équipes chargées des données à rectifier les erreurs de qualité des données avec rapidité et précision, et leur permet de se concentrer sur des tâches plus importantes. Les équipes chargées de la qualité des données peuvent profiler, nettoyer, faire correspondre, fusionner et purger des millions d’enregistrements en quelques minutes, et économiser beaucoup de temps et d’efforts qui sont habituellement gaspillés pour de telles tâches.

Pour en savoir plus sur la façon dont DataMatch Enterprise peut vous aider, vous pouvez télécharger un essai gratuit aujourd’hui ou réserver une démonstration avec un expert.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.