Les mauvaises données sont la raison pour laquelle de nombreux projets d’entreposage de données ne donnent pas de résultats ; en fait, la qualité des données dans les entrepôts de données reste un défi important pour de nombreuses entreprises. La principale cause de mauvaises données est l’intégration de données provenant de plusieurs systèmes, mais cette intégration est à la base de tout projet d’entreposage de données.
Que signifie la qualité des données dans un entrepôt de données ?
L’objectif de l’entrepôt de données est de construire une couche unifiée qui contient des données provenant de toutes les sources de données pertinentes de l’organisation. Cela signifie que vous devez intégrer les données de plusieurs systèmes et les optimiser pour l’analyse et la veille stratégique. Ainsi, l’entrepôt de données ne génère pas de données propres et tout problème de qualité des données se situe dans les systèmes sources ou résulte de la façon dont les données sont interprétées dans les différents systèmes. L’équipe chargée de l’entreposage des données doit assumer la responsabilité d’identifier ces problèmes, de trouver des moyens d’améliorer la qualité des données ou d’obtenir l’accord des entreprises sur certains points pour qu’ils soient considérés comme acceptables. Le dernier point peut sembler déroutant mais il est essentiel pour maintenir un équilibre entre le coût de l’amélioration de la qualité des données et ce que l’entreprise est prête à dépenser.
Si la qualité des données est négligée, les utilisateurs de l’entrepôt de données auront des données inexactes et incomplètes sur les bras. Cela se traduit directement par des données non représentatives et des analyses erronées. Il peut s’agir des mêmes analyses que celles utilisées par la direction pour prendre des décisions, et nous savons tous à quel point il est difficile d’obtenir des résultats.
une seule mauvaise décision peut potentiellement nuire aux entreprises.
4 moyens immédiats d’améliorer la qualité des données dans votre entrepôt de données
Rejeter l’erreur: Vous devez décider si vous voulez de la précision ou de l’exhaustivité dans un cas donné. Si l’exactitude est plus importante, vous pouvez rejeter tout enregistrement comportant une telle erreur – si la correction de cette erreur exige plus d’efforts que votre entreprise n’est prête à fournir.
Accepter l’erreur: Si vous accordez plus d’importance à l’exhaustivité qu’à l’exactitude, vous pouvez choisir d’ignorer l’erreur et d’accepter les enregistrements comportant lesdites erreurs dans votre entrepôt de données si vous considérez que les erreurs sont tolérables, en décidant de corriger l’erreur lorsque votre équipe pourra trouver les valeurs correctes plus tard.
Corriger l’erreur: Si votre équipe peut trouver les valeurs correctes ou le changement de format qui corrigerait une erreur spécifique à un coût que vous pouvez supporter, le choix est évident.
Attribuer une valeur par défaut: Si l’exhaustivité est très importante et que la valeur correcte ne peut être trouvée, vous pouvez attribuer une valeur par défaut pour chaque type d’erreur afin de remplacer les données erronées.
Quelle que soit la mesure que vous prenez, il est essentiel que les utilisateurs de l’entrepôt de données comprennent les implications de chaque action afin d’en tenir compte dans leurs analyses.
Approches de la gestion de la qualité des données
Nous avons vu que la qualité des données est une exigence clé de l’entreposage des données, mais en termes pratiques, la résolution des problèmes de qualité dans l’entrepôt de données est un processus complexe. Cette section couvre les approches de mise en œuvre d’un cadre de qualité des données pour les entrepôts de données, en particulier :
- Comprendre les données sources dans l’entrepôt de données
- Comprendre les causes des erreurs de qualité des données
- Rassembler des données provenant de différentes sources pour améliorer la qualité
- Ajouter de la valeur aux données pour en accroître l’utilité
Profilage des données : Comprendre les données sources dans l’entrepôt de données
Lorsqu’on essaie d’améliorer quelque chose, le comprendre est la première étape naturelle. Le processus consistant à comprendre les données existantes par rapport à la façon dont vous souhaitez qu’elles soient dans leur forme finale est appelé « profilage des données ». Cela implique de creuser profondément dans les données sources et de comprendre le contenu, la structure et les cardinalités. C’est ainsi que nous identifions où les processus de qualité des données doivent être appliqués et quelle approche choisir.
Trop souvent, le profilage des données a été relégué à l’arrière-plan des processus d’extraction, de transformation et de chargement (ETL), et n’est utilisé que pour vérifier les anomalies mineures des données une fois que la conception de l’entrepôt de données est terminée et que les données de production doivent être livrées. En réalité, le profilage des données devrait être la toute prochaine étape de votre projet d’entreposage de données de qualité, une fois que vous avez recueilli les besoins de l’entreprise. À ce stade, le fait de connaître la quantité de travail que les données sources nécessiteront avant de devenir utilisables pour l’analyse aura un impact important sur la conception et le temps nécessaire à la construction de votre entrepôt de données.
Lorsque vous établissez le profil de vos données au cours du processus de conception de l’entrepôt de données, concentrez-vous sur ces quatre éléments livrables pour tirer le meilleur parti de cet effort :
- Le livrable le plus basique est un « no-go » sur l’ensemble du projet. Les données sources que vous souhaitez utiliser pour créer votre entrepôt de données peuvent contenir trop d’erreurs ou trop d’informations manquantes pour que l’initiative d’entreposage de données soit viable pour l’analyse. Bien que cela puisse être interprété comme un échec retentissant, il s’agit en fait d’un résultat extrêmement précieux, car votre équipe peut désormais recentrer ses efforts ailleurs au lieu de passer des semaines et des mois à construire un projet pour découvrir que le résultat final est un système de rapport extrêmement défectueux et inutilisable pour la prise de décision. De telles surprises à la fin sont souvent synonymes d’interruption de carrière pour les responsables d’équipes de veille stratégique.
- Le deuxième élément livrable est une liste des problèmes qui existent déjà dans les données sources et qui doivent être résolus avant que le projet ne puisse avancer. Les correctifs constituent une dépendance externe majeure et doivent être bien gérés pour assurer le succès de votre entrepôt de données. Vous pouvez penser que les problèmes peuvent être résolus plus tard, une fois les données écrites dans l’entrepôt de données, mais alors, chaque fois que vous synchronisez vos systèmes opérationnels et l’entrepôt de données, les problèmes surgiront.
- Le troisième produit livrable est une liste des problèmes de qualité des données rencontrés lors de l’extraction des données de sources multiples et de leur écriture dans l’entrepôt de données. Une compréhension approfondie de ces questions vous aidera à mettre au point la logique de transformation des données et les méthodes de traitement des exceptions les mieux adaptées à votre scénario d’entreprise. Vous pourrez également déterminer tout traitement manuel nécessaire pour corriger les incohérences et en tenir compte dans le temps total nécessaire à la réalisation du projet d’entreposage des données.
- Enfin, il faut se concentrer sur les règles de gestion qui n’avaient pas été prévues auparavant et sur les problèmes liés aux relations entre clés étrangères et primaires et aux structures hiérarchiques. Vous devrez creuser à un niveau plus profond pour identifier ces problèmes complexes, mais s’ils ne sont pas vérifiés, ils s’infiltreront dans la conception de l’entrepôt de données et risquent de prendre des proportions démesurées par la suite.
Voici quelques exemples simples de problèmes que le profilage des données peut aider à découvrir :
Problème de qualité des données | Exemple |
Valeur non valide | La valeur valide peut être « 1 » ou « 2 », mais la valeur actuelle est « 3 ». |
Conformité aux règles culturelles | Date = 1er février 2018 ou 1-1-18 ou 2-1-2018 |
Valeur hors de la plage requise | Âge du client = 204 |
Vérification | La ville et l’État ne correspondent pas au code postal. |
Incompatibilité de format | Téléphone = +135432524 ou (001)02325355 |
Qualité des données : Comprendre les causes des erreurs de qualité des données
Vous avez terminé le profilage des données et vous êtes prêt à passer à l’amélioration de la qualité des données ? Pas si vite. Le profilage des données est un processus continu de découverte. Instaurez une culture axée sur la qualité dans votre organisation en récompensant les personnes qui trouvent et signalent des problèmes dans les données ;
tout comme les fabricants japonais le font dans l’industrie automobile
.
Une fois que vous avez une bonne idée de la qualité de vos données, commencez à réorganiser les processus pour améliorer la qualité des données, tandis que le profilage se poursuit en permanence à tous les niveaux de l’organisation, des opérateurs de saisie de données de première ligne aux cadres supérieurs qui utilisent les analyses. Des modifications du système source seront nécessaires, mais vous devrez les traiter avec délicatesse, en équilibrant la mise en œuvre aux niveaux technique et opérationnel en impliquant à la fois les entreprises et l’informatique. À moins que votre organisation n’ait déjà mis en place un système de gestion des données de référence (MDM) contenant des copies de référence de toutes les données, vous souhaiteriez que votre entrepôt de données serve éventuellement de MDM. Cela signifie que l’entrepôt de données doit nettoyer, conserver, conformer et dédupliquer de nombreux ensembles de données à travers l’organisation.
La première étape pour améliorer la qualité des données une fois profilées est une série de tests incorporés à n’importe quel moment du processus d’intégration des données. Les tests peuvent porter sur un certain nombre de règles de gestion ou d’opérations mathématiques pour valider vos données, par exemple. Nous aborderons cette partie plus en détail ultérieurement.
Si un ensemble de données passe les tests avec succès, il est propre et peut être déplacé vers l’entrepôt de données de production pour la modélisation. Si ce n’est pas le cas, votre processus de validation des données devrait pouvoir le faire :
- Créer un enregistrement d’événement d’erreur, et
- Soit arrêter le processus
- Ou suspendre les données erronées
- Ou simplement étiqueter les données
Tests de qualité des données
En termes d’architecture, tous les tests de qualité des données sont structurés de manière similaire, mais diffèrent par leur portée. Examinons les catégories de qualité des données définies par la Commission européenne.
Jack Olsen dans son livre « Data Quality : The Accuracy Dimension »
:
- Tests au niveau des colonnes
Les données sont testées à un niveau très granulaire, dans une seule colonne. Les règles de qualité des données qui peuvent être appliquées à ce stade consistent notamment à vérifier si la valeur est nulle, si elle fait partie d’une liste fixe et finie, si elle se situe dans une plage spécifiée, si elle correspond aux modèles de champs spécifiés dans la base de données, si elle ne fait pas partie de listes d’exclusion et si elle passe le contrôle orthographique de base.
- Tests au niveau de la structure
Ce type de test vérifie les relations entre les données sur plusieurs colonnes. Par exemple, les champs d’une colonne à l’autre peuvent être contrôlés pour vérifier une hiérarchie, comme une relation de type « un à plusieurs ». Les relations de clé étrangère et primaire sont également vérifiées. Chaque champ d’une colonne spécifique peut être comparé à une autre colonne pour vérifier des éléments tels que les adresses postales.
- Test des règles métier
Les tests complexes sont effectués en la création de règles commerciales. Ce type de test peut consister à vérifier l’éligibilité d’un client d’une compagnie aérienne et son statut de membre platine en vérifiant que ses miles de fidélité dépassent 2 millions et qu’il a été membre régulier pendant au moins 5 ans pour pouvoir prétendre au statut platine.
Avec ces mesures en place, nous pouvons commencer à agir :
- Rejeter les données et les exclure de l’entrepôt de données si les erreurs sont trop graves pour être corrigées.
- Accepter les données lorsque les erreurs se situent dans les limites tolérables, après en avoir informé les utilisateurs professionnels.
- Corrigez les données lorsque l’erreur peut être corrigée au fur et à mesure, par exemple, lorsqu’il existe plusieurs versions de la même entité client, vous pouvez en désigner une comme fiche principale.
- Attribuez une valeur par défaut, comme « Non disponible », lorsque vous ne pouvez pas laisser un champ vide.
Les mesures que vous devez prendre varient en fonction du type de données avec lesquelles vous travaillez. Elles relèvent généralement de la responsabilité du département commercial qui travaille avec un type spécifique de données.
Notez que toutes les mesures dont nous avons parlé jusqu’à présent se concentrent sur l’amélioration de la qualité des données existantes plutôt que de s’attaquer à la cause profonde – qui se situe souvent au point où les données sont saisies dans le système transactionnel par les employés de première ligne. Si vous vous investissez réellement dans l’amélioration de la qualité des données, vous devrez également mettre en œuvre des règles qui améliorent la qualité des données saisies. Par exemple, dans une institution financière, la direction peut remarquer que les numéros de sécurité sociale des clients sont souvent laissés en blanc ou mal saisis. Ils peuvent choisir de mettre en œuvre une règle qui rend la valeur du champ « obligatoire » dans un format spécifique aux numéros de sécurité sociale (AAA-GG-SSSS) tout en interdisant les entrées absurdes comme 999-99-9999.
Intégration des données : Rassembler des données provenant de différentes sources pour en améliorer la qualité
L’intégration des données en tant que méthodologie est différente, mais dans le contexte de la qualité des données, elle fait référence à l’intégration des données concernant la même entité dans différents systèmes. Par exemple, des informations sur un produit spécifique peuvent être trouvées dans votre base de données américaine, mais le même produit peut être vendu dans différents pays également, ce qui signifie que les enregistrements du même produit sont répartis dans différentes bases de données en fonction de la région. Dans chaque région, le produit peut être vendu sous un nom différent, sous une marque différente, et avec des modèles différents utilisés pour décrire les informations dans les enregistrements de la base de données.
Lors de la création de votre entrepôt de données, vous devrez intégrer tous ces éléments d’information disparates dans plusieurs bases de données afin de créer une vue d’ensemble qui pourra être utilisée pour la production de rapports. Prenons un exemple :
Données originales | Données après normalisation |
BMI Corp | BMI Corporation |
BMI Inc | BMI Incorporated |
BMI Co. | Société BMI |
M. JOHN DEERE | M. John Deere |
Monsieur Jonathan Deere | M. John Deere |
Monsieur John DEERe | M. John Deere |
#(222)0202020 ext120 | 222-020-2020 poste 120 |
2220202020 x120 | 222-020-2020 poste 120 |
Sel national | Société nationale du sel |
NSC | Société nationale du sel |
N. Salt | Société nationale du sel |
National S. | Société nationale du sel |
En reprenant notre exemple initial de client et de produit, l’intégration des données de cette manière tourne autour de deux processus importants :
- Reconnaître si la même entité client existe dans les deux sources.
- Combiner les données des clients pour obtenir une vue consolidée du tableau des produits
Lorsque vous essayez de déterminer si deux entités sont liées, vous pouvez commencer par un champ commun qui est susceptible d’exister selon le même modèle dans tous les systèmes. Pour l’entité client, ce champ pourrait être le numéro d’identification fiscale. Si le même numéro d’identification fiscale existe pour des enregistrements de clients différents, vous venez d’identifier le point commun d’une manière très efficace. Cependant, nous avons rarement la chance d’avoir des solutions aussi simples dans le monde des bases de données.
Si vous ne trouvez pas de champ commun, il faudra faire correspondre toutes les informations disponibles sur les produits entre les tables pour déterminer si la même entité client existe entre les deux systèmes. Les outils modernes de gestion de la qualité des données permettent d’automatiser ce type de travail, qui demandait auparavant aux experts en la matière de passer des heures à parcourir des lignes et des tableaux pour trouver des liens. Poussons plus loin cet exemple et voyons comment les informations sur les produits pourraient être appariées.
Supposons que votre base de données américaine contienne la marque, la description du produit et le numéro d’identification du produit dans un seul champ, selon des modèles différents. Au Royaume-Uni, par exemple, la base de données n’enregistre que la description du produit, mais elle varie également en fonction de la personne qui l’a saisie. Un site
outil automatisé de qualité des données
pourrait déterminer les points communs :
- Analyse de la description du produit à partir des bases de données américaines et britanniques en attributs individuels et tri par nom de marque.
- Appliquer des opérations aux noms de marque pour les rendre cohérents
- Correction des différences dans la façon dont les attributs des produits sont enregistrés
- Utilisez la logique floue pour faire correspondre les attributs des produits dans les deux bases de données.
- Afficher les rapports des produits qui correspondent et les lier à une entité client
En utilisant l’intégration des données de cette manière, les entreprises ont économisé des tonnes d’heures de travail par an. La meilleure façon de procéder lors de la construction de votre entrepôt de données est de met en place une solution complète de nettoyage et de rapprochement des données entre la source et la destination, basée sur une API.
Augmentation des données : Ajouter de la valeur aux données pour en accroître l’utilité
Nous avons maintenant établi le profil des données, examiné les causes de la qualité des données et les mesures à prendre, et découvert comment l’intégration des données provenant de sources multiples pour déterminer les points communs ajoute de la valeur. La dernière étape naturelle pour compléter le cycle de qualité des données est de chercher des moyens d’augmenter les données des entités existantes avec des données provenant de sources externes, en dehors de nos propres bases de données.
Pour des entités comme le client, une telle augmentation des données est très courante. Votre application d’automatisation du marketing pourrait, par exemple, contenir des informations précieuses sur les clients qui pourraient être utilisées pour augmenter les enregistrements dans l’entrepôt de données. Ces informations supplémentaires aideront votre entreprise à mieux cibler ses offres de produits en offrant des possibilités de segmentation plus approfondies.
Le tableau ci-dessous donne un exemple des types de données qui peuvent être obtenues de sources externes pour compléter la fiche :
État | CL |
Ville | Déplacements |
ZIP | 65464 |
ZIP+4 | 3234 |
ID de livraison | 3 |
ID de l’itinéraire | 4 |
Adresse | 6546 House Way |
Numéro de la maison | 6546 |
Rue | Chemin de la maison |
Type de rue | Chemin |
ID du comté | 635 |
Nom du comté | Lueur |
District | 47 |
Type d’enregistrement | Personnel |
Latitude | 35.4685 |
Longitude | 64.2334 |
Groupe de recensement | 35632165 |
Secteur de recensement | 35 |
Dans l’exemple de données ci-dessus, une entreprise pourrait potentiellement examiner l’adresse et les codes postaux ainsi que le code ZIP+4 pour déterminer si le client appartient à un segment de logement spécifique. Par exemple, les maisons d’une région particulière qui ont un code ZIP+4 ont été construites dans les années 80 et font 2500 pieds carrés. Ces informations pourraient être utilisées pour cibler certaines offres de produits à tous ces clients.
Si l’exemple ci-dessus n’est qu’un exemple, en réalité, l’augmentation des données en utilisant le champ d’adresse pour établir une corrélation est courante. Les données relatives aux produits sont un autre exemple de données utilisées à des fins d’augmentation. Les habitudes d’achat, notamment lors de l’élaboration de modèles prédictifs, peuvent être déterminées à l’aide de corrélations entre les données relatives aux produits et d’autres données augmentées. Un autre excellent exemple d’augmentation des données peut être observé dans le cas du fabricant. En tant que fabricant, vous ne connaissez que le montant et la quantité que vous vendez aux détaillants ou aux grossistes, mais pas la quantité réelle de produits vendus au client final. Des sociétés d’études comme Nielsen fournissent des données de ce type, que les fabricants achètent pour mieux comprendre les schémas de vente afin d’améliorer leur offre de produits et leur stratégie en termes de stocks et de livraison.
Bien qu’elle ne soit pas directement liée à la qualité des données dans son essence, l’augmentation des données devrait être la dernière étape naturelle si vous mettez en place un cadre de gestion intensive de la qualité des données au sein de votre organisation.
Conclusion : Créer des capacités d’analyse fiables et précises grâce à la qualité des données
L’objectif de toute initiative d’entreposage de données est de fournir des renseignements commerciaux, et cet objectif ne peut être atteint si l’on n’accorde pas suffisamment d’attention à la mise en place d’un cadre complet de qualité des données, le résultat final étant des analyses inexactes, et donc de mauvaises décisions.
Utilisez le cadre de qualité des données décrit ici comme base pour élaborer vos propres processus. Vous devez vous concentrer sur la valeur ajoutée que vous pouvez apporter aux données existantes, plutôt que de vous contenter de corriger les erreurs dans les données de production et de passer à autre chose.