Blog

Les 12 problèmes de qualité des données les plus courants et leur origine

Written by lbarrera
Published on mai 23, 2022

Last Updated on octobre 31, 2022

Selon le rapport d’O’Reilly sur l’état de la qualité des données en 2020, 56 % des organisations sont confrontées à au moins quatre types différents de problèmes de qualité des données, tandis que 71 % sont confrontées à au moins trois types différents. Les organisations consacrent beaucoup de temps et de ressources à la conception de cadres de qualité des données et à la résolution des problèmes de qualité des données. Mais pour obtenir de bons résultats, il est important qu’ils comprennent la nature exacte de ces problèmes et déterminent comment ils se retrouvent dans le système en premier lieu.

Dans ce blog, nous examinerons certains problèmes généraux de qualité des données qui se retrouvent dans tous les ensembles de données, et nous mettrons également en évidence les moyens courants par lesquels ils peuvent se glisser dans votre base de données.

Commençons.

Qu’est-ce qu’un problème de qualité des données ?

Un problème de qualité des données désigne la présence d’un défaut intolérable dans un ensemble de données, tel qu’il réduit la fiabilité et la crédibilité de ces données.

Les données stockées dans des sources disparates présentent forcément des problèmes de qualité. Ces problèmes peuvent être introduits dans le système pour un certain nombre de raisons, comme une erreur humaine, des données incorrectes, des informations périmées ou un manque de compétences en matière de données dans l’organisation. Comme les données alimentent des fonctions commerciales essentielles, de tels problèmes peuvent entraîner des risques et des dommages sérieux pour l’entreprise.

La nécessité d’exploiter des données de qualité dans tous les processus d’entreprise est tout à fait évidente. Les dirigeants investissent dans le recrutement d’équipes chargées de la qualité des données parce qu’ils veulent rendre les gens responsables de l’obtention et du maintien de la qualité des données. En outre, des cadres complexes de qualité des données sont conçus et une technologie avancée est adoptée pour garantir une gestion rapide et précise de la qualité des données. Tous ces efforts sont déployés dans l’espoir de faire du rêve des données propres une réalité.

Mais rien de tout cela n’est possible sans comprendre ce qui pollue les données en premier lieu et d’où cela vient exactement.

Les 12 principaux problèmes de qualité des données rencontrés par les entreprises

J’ai récemment parcouru les notes de certains clients et j’ai dressé une liste des 12 principaux problèmes de qualité des données qui sont généralement présents dans les données organisationnelles d’une entreprise. Jetons un coup d’œil à cette liste.

Problème n°01 : Absence d’unicité des enregistrements

Une entreprise moyenne de 200 à 500 employés utilise aujourd’hui environ 123 applications SaaS . Le grand nombre et la variété des applications utilisées pour capturer, gérer, stocker et utiliser les données sont la principale raison de la mauvaise qualité des données. Et le problème le plus courant dans de telles situations est que vous finissez par stocker plusieurs enregistrements pour la même entité.

Par exemple, toutes les interactions qu’un client a avec votre marque au cours de son parcours d’achat sont enregistrées quelque part dans une base de données. Ces enregistrements peuvent provenir de sites web, de formulaires de pages de renvoi, de publicités sur les médias sociaux, d’enregistrements de ventes, d’enregistrements de facturation, d’enregistrements de marketing, d’enregistrements de points d’achat et d’autres domaines similaires. S’il n’y a pas de moyen systématique d’identifier les identités des clients et de fusionner les nouvelles informations avec celles qui existent déjà, vous pouvez vous retrouver avec des doublons dans tous vos ensembles de données.

Et pour corriger les doublons, vous devrez exécuter des algorithmes avancés de rapprochement de données qui comparent deux ou plusieurs enregistrements et calculent la probabilité qu’ils appartiennent à la même entité.

How to build a unified, 360 customer view

Download this whitepaper to learn about why it’s important to consolidate your data to get a 360 view.

Download

Problème n°02 : Absence de contraintes relationnelles

Un ensemble de données fait souvent référence à plusieurs ressources de données. Mais lorsqu’aucune relation n’est définie et appliquée entre deux ou plusieurs ressources de données distinctes, vous pouvez vous retrouver avec un grand nombre d’informations incorrectes et incomplètes.

Prenons le scénario suivant comme exemple : Votre portail client contient des enregistrements pour les nouvelles entreprises que vous avez gagnées cette année ainsi que pour les clients existants qui ont été mis à niveau depuis l’année dernière. Outre les informations de base sur le client, certains champs ne s’appliquent qu’à une nouvelle entreprise et d’autres ne fonctionnent que pour un nouveau client. Vous pouvez traiter les deux scénarios avec le même modèle de données généralisé, mais cela peut ouvrir la porte à de nombreux problèmes de qualité des données, tels que l’absence d’informations nécessaires, ainsi que des informations ambiguës ou incorrectes dans les dossiers des clients.

Pour gérer de tels scénarios, vous devez toujours créer des modèles de données spécifiques et renforcer les relations entre eux. En imposant une relation parent/enfant (supertype/subtype) entre les entités, vous facilitez la saisie, la mise à jour et la compréhension des données pour ceux qui traitent ces informations. Voir le diagramme ERD suivant à titre d’exemple. Les champs de base du client sont séparés de ses sous-types enfants, à savoir Nouvelle entreprise et Client existant.

Problème n°03 : Absence d’intégrité référentielle

L’intégrité référentielle signifie que les enregistrements de données sont fidèles à leur contrepartie de référence. Pour comprendre les problèmes produits par un manque d’intégrité référentielle, prenons l’exemple d’une entreprise de vente au détail. Une entreprise de vente au détail stocke probablement ses enregistrements de ventes dans une table Ventes , et chaque enregistrement mentionne le produit vendu et le moment où la vente a été effectuée. Vous vous attendez donc probablement à trouver des identifiants de vente ainsi que des identifiants de produit dans la table des ventes . Mais si un enregistrement de ventes fait référence à des ID de produits qui n’existent pas dans la table des produits , il est évident que vos ensembles de données manquent d’intégrité référentielle.

Ces problèmes peuvent conduire vos équipes à créer des rapports incorrects, à expédier des produits incorrects, ou à expédier des produits à des clients qui n’existent pas, etc.

Problème n°04 : Absence de cardinalité des relations

La cardinalité des relations désigne le nombre maximal de relations que deux entités peuvent avoir entre elles. Normalement, différents types de relations peuvent être créés entre les objets de données, en fonction de la manière dont les transactions commerciales sont autorisées dans une entreprise.

Considérez les exemples suivants pour comprendre la cardinalité entre différents objets de données, tels que Client, Achat, Emplacement et Produit:

Un client ne peut avoir qu’un seul emplacement à la fois.
Un client peut effectuer plusieurs achats
De nombreux clients peuvent provenir d’un même endroit
Plusieurs clients peuvent acheter plusieurs produits

Si les contraintes de cardinalité ne sont pas bien définies, cela peut potentiellement donner lieu à un certain nombre de problèmes de qualité des données dans votre ensemble de données.

Problème n°05 : Manque d’unicité et de signification des attributs

Nous rencontrons souvent des problèmes liés aux attributs ou aux colonnes des ensembles de données. Très souvent, les modèles de données ne sont pas explicitement définis et les informations qui en résultent sont donc jugées inutilisables. Les problèmes les plus courants sont les suivants :

Plusieurs colonnes portant le même nom sont présentes, contenant des informations différentes pour un enregistrement.
Plusieurs colonnes portant des noms différents sont présentes, mais elles ont techniquement la même signification et stockent donc les mêmes informations.
Les titres des colonnes sont ambigus et confondent l’opérateur de saisie de données sur ce qu’il faut stocker dans la colonne.
Certaines colonnes sont toujours laissées vides, soit parce qu’elles sont dépréciées, soit parce qu’il n’y a pas de source pour obtenir ces informations.
Certaines colonnes ne sont jamais utilisées et sont donc stockées inutilement.

Tous ces scénarios illustrent la façon dont les attributs sont mal gérés dans un ensemble de données et augmentent le nombre de problèmes de qualité des données.

Problème n°06 : Absence de contraintes de validation

Le plus grand nombre de problèmes de qualité des données est dû à l’absence de contraintes de validation. Les contraintes de validation garantissent que les valeurs des données sont valides et raisonnables, ainsi que normalisées et formatées conformément aux exigences définies. Par exemple, l’absence de contrôle des contraintes de validation pour le nom du client entraînerait les erreurs suivantes :

Espaces supplémentaires dans le nom (soit en tête, soit en queue, soit en double espace entre les deux),
Utilisation de symboles et de caractères inappropriés,
La longueur du nom est trop importante,
Les seconds prénoms à lettre unique ne prennent pas de majuscule ou ne se terminent pas par un point,
Toutes les lettres du prénom, du second prénom et du nom de famille sont en majuscules, plutôt que de ne mettre que la première lettre.

En outre, certains champs peuvent contenir des abréviations et des codes incorrects, ou d’autres valeurs qui n’appartiennent pas au domaine de l’attribut. Si ces contraintes ne sont pas définies dans vos modèles de données et appliquées aux points d’entrée des données, vous vous retrouverez avec de nombreuses erreurs de validation dans les champs les plus critiques et les plus basiques de votre ensemble de données, comme le nom d’un client.

Problème n° 07 : Absence de formules et de calculs précis

De nombreux champs d’un ensemble de données sont dérivés ou calculés à partir d’autres champs. Ainsi, les formules sont conçues, mises en œuvre et exécutées automatiquement chaque fois que de nouvelles données sont saisies ou mises à jour dans les champs dépendants. Toute erreur présente dans les formules ou les calculs peut vous conduire à avoir des informations incorrectes dans toute la colonne de l’ensemble de données. Cela invalide le champ pour toute utilisation prévue.

Parmi les exemples de champs qui sont calculés à partir d’autres, citons l’âge calculé à partir des anniversaires, la remise applicable calculée à partir du nombre de produits achetés, ou tout autre calcul de pourcentage.

Problème n°08 : Manque de cohérence entre les sources

L’un des défis les plus courants associés aux données est de maintenir une définition unique de la même « chose » dans tous les nœuds ou sources de données. Par exemple, si une entreprise utilise un CRM et une application de facturation distincte, l’enregistrement d’un client se retrouvera dans les bases de données des deux applications. Il est difficile de maintenir une vue cohérente – ou simplement identique – des informations sur les clients dans toutes les bases de données au fil du temps.

Un manque de cohérence peut perturber le reporting de toutes les fonctions et opérations de votre entreprise. La cohérence ne concerne pas seulement la signification des valeurs des données, mais aussi leur représentation ; par exemple, lorsque des valeurs ne sont pas applicables ou sont indisponibles, des termes cohérents doivent être utilisés pour représenter l’indisponibilité des données dans toutes les sources.

Problème n°09 : Manque d’exhaustivité des données

La complétude des données fait référence à la présence des champs nécessaires dans votre ensemble de données. La complétude d’un ensemble de données peut être calculée verticalement (au niveau des attributs) ou horizontalement (au niveau des enregistrements). En général, les champs sont marqués comme obligatoires/exigibles pour garantir l’exhaustivité d’un ensemble de données, car tous les champs ne sont pas nécessaires.

Vous trouverez généralement ce problème de qualité des données dans votre ensemble de données où un grand nombre de champs sont laissés vides – pour un grand nombre d’enregistrements. Mais le vide ne signifie pas nécessairement l’incomplétude. L’exhaustivité d’un ensemble de données ne peut être évaluée avec précision qu’en classant d’abord chaque champ d’un modèle de données comme suit :

Le champ est-il obligatoire ? Cela signifie qu’il ne peut pas être laissé vide ; par exemple, l’identification nationale d’un client.
Le champ est-il facultatif ? Cela signifie qu’il ne doit pas nécessairement être rempli ; par exemple, le champ « Hobbies » pour un client.
Le champ est-il inapplicable dans certains cas ? Cela signifie qu’il n’est pas pertinent dans le contexte de l’enregistrement et qu’il doit être laissé vide ; par exemple, le nom du conjoint pour un client non marié.

Problème n°10 : Manque d’actualisation des données

Les données vieillissent très vite – qu’un client ait changé d’adresse résidentielle, d’adresse électronique ou que son nom de famille ait changé en raison de son statut marital. Ces changements peuvent avoir un impact sur l’actualité de votre ensemble de données et vous amener à disposer de données vieilles de plusieurs semaines ou mois, ce qui vous conduit à présenter et à fonder des décisions critiques sur des informations obsolètes. Pour garantir l’actualité de votre ensemble de données, vous pouvez définir des rappels pour la mise à jour des données, ou fixer des limites à l’âge d’un attribut, afin de garantir que toutes les valeurs sont soumises à un examen et à une mise à jour dans un délai donné.

Problème n°11 : Manque de compétences en matière de données

Malgré tous les efforts déployés pour protéger les données et leur qualité dans tous les ensembles de données, un manque de compétences en matière de données dans une organisation peut encore causer beaucoup de dommages à vos données. Les employés stockent souvent des informations erronées car ils ne comprennent pas la signification de certains attributs. De plus, ils ne sont pas conscients des conséquences de leurs actions, comme par exemple les implications de la mise à jour des données dans un certain système ou pour un certain enregistrement.

De telles divergences ne peuvent être éliminées qu’en créant et en concevant des plans et des cours de maîtrise des données qui initient les équipes aux données et aux explications de l’organisation :

Ce qu’il contient,
La signification de chaque attribut de données,
Quels sont les critères d’acceptabilité de sa qualité,
Quelle est la bonne et la mauvaise manière de saisir/manipuler les données ?
Quelles données utiliser pour atteindre un résultat donné ?

Problème n° 12 : fautes de frappe et autres erreurs humaines

Les fautes de frappe ou d’orthographe sont l’une des sources les plus courantes d’erreurs de qualité des données. On sait que les humains commettent au moins 400 erreurs lors de la saisie de 10 000 données. Cela montre que même avec la présence d’identifiants uniques, de contrôles de validation et de contraintes d’intégrité, il est possible que l’erreur humaine intervienne et que la qualité de vos données se détériore.

Utilisation d’outils de qualité des données en libre-service

Nous venons de passer en revue les différents types de problèmes de qualité des données qui résident dans un ensemble de données. Les équipes qui s’efforcent de maintenir des niveaux acceptables de qualité des données dans toute l’organisation ont besoin des bons outils. C’est là qu’un outil de gestion de la qualité des données peut s’avérer utile. Un outil tout-en-un, en libre-service, qui profile les données, effectue diverses activités de nettoyage des données, fait correspondre les doublons et produit une source unique de vérité.

DataMatch Enterprise est l’un de ces outils qui aide les équipes chargées des données à rectifier les erreurs de qualité des données avec rapidité et précision, et leur permet de se concentrer sur des tâches plus importantes. Les équipes chargées de la qualité des données peuvent profiler, nettoyer, faire correspondre, fusionner et purger des millions d’enregistrements en quelques minutes, et économiser beaucoup de temps et d’efforts qui sont habituellement gaspillés pour de telles tâches.

Pour en savoir plus sur la façon dont nous pouvons vous aider, vous pouvez télécharger un essai gratuit dès aujourd’hui ou réserver une démonstration avec nos experts.

Getting Started with DataMatch Enterprise

Download this guide to find out the vast library of features that DME offers and how you can achieve optimal results and get the most out of your data with DataMatch Enterprise.

Download

lbarrera

Clean up your data in minutes

Trusted by 700+ data teams worldwide

Try data matching today

No credit card required

« * » indique les champs nécessaires

Want to know more?

Check out DME resources

Aïe ! Nous n’avons pas retrouvé votre formulaire.

PAR CARACTÉRISTIQUE

PAR CAS D'UTILISATION

PAR INDUSTRIE

NOS PRODUITS

À PROPOS DE NOUS

CLIENTS

COMPARER