Blog

Nettoyage des données dans l’entrepôt de données : L’approche automatisée et sans code pour maintenir votre source unique de vérité

Les données sont partout, et le volume total devrait
dépasser 44 trillions de Go d’ici 2020
mais elle est rarement utile. Seulement 27% des organisations ayant mis en place des initiatives d’analyse des données font état d’un succès significatif, tandis qu’à peine 8% décrivent leurs efforts comme « très réussis ». Ces chiffres sont faibles non pas parce que les entreprises ne disposent pas des données nécessaires, mais parce qu’elles ne disposent pas de données de qualité sur lesquelles travailler, ce qui signifie que les données dont elles disposent sont, à toutes fins utiles, inutiles.

La disponibilité ne suffit pas, il faut rendre les données utiles.

Lorsque vous construisez votre entrepôt de données, il est essentiel de vous assurer que vous disposez de données propres, sinon vous risquez d’être confronté à la… « 
garbage in, garbage out
«  phénomène. Mais en quoi consiste exactement le nettoyage des données, et en avez-vous vraiment besoin dans votre conception spécifique d’entrepôt de données ?

Si vous intégrez des données provenant d’une source unique, vous pouvez constater que les enregistrements sources contiennent des informations manquantes, des fautes d’orthographe datant de la saisie initiale des données, des données non valides, etc. Ces problèmes sont omniprésents dans les bases de données et sont souvent transférés aux rapports analytiques – à moins que vous ne mettiez en œuvre des techniques de nettoyage et d’épuration des données au préalable. Le problème est amplifié lorsque vous traitez des sources de données disparates pour construire des référentiels de données centralisés comme un entrepôt de données, un système d’information global ou un système fédéré de bases de données opérationnelles.

Lorsque vous traitez avec une source unique, vous devez faire face à des inexactitudes dans les données. Avec des sources disparates, vous devrez également faire face à des différences dans la manière dont les données sont stockées et structurées, ainsi qu’à des problèmes de redondance des données entre les multiples représentations des données dans chaque source.

Prenons un exemple. Supposons que vous ayez une entité nommée ‘John Smith’ avec le champ Ville rempli comme ‘Londres’ dans une base de données. Une autre base de données pourrait avoir une colonne supplémentaire pour le « pays », et lorsque les deux bases de données seront fusionnées, vous n’aurez aucun moyen facile de remplir le champ « ville » pour l’ancien enregistrement « Jean Dupont ». Après tout, il y a environ 12 Londres différentes dans le monde .

Il s’agit d’un exemple ; il pourrait y avoir une myriade de problèmes, comme des noms concaténés dans une base de données et des colonnes distinctes pour le Prénom et le Nom dans une autre, ou des colonnes distinctes pour le Numéro de maison et le Nom de rue, alors qu’une autre base de données n’a qu’une seule colonne Adresse.

L’une des façons de corriger la qualité des données consiste à analyser et à corriger manuellement les erreurs, mais cela devient vite impraticable lorsque l’on a affaire à des données volumineuses. L’autre solution consiste à utiliser un logiciel de qualité des données spécialement conçu pour permettre à l’entreprise de se concentrer sur la qualité des données. le nettoyage de données le plus rapide et le plus précis pour votre entrepôt de données.

Nettoyage des données dans l’entrepôt de données

Votre entrepôt de données doit disposer de données cohérentes, précises et dédupliquées pour alimenter les applications d’analyse en aval et les autres systèmes de l’entreprise. Dans un scénario typique, vous aurez besoin d’une zone de transit distincte où vous importerez des données depuis la source, puis transformerez et manipulerez vos données à des fins de normalisation et de nettoyage. Les logiciels modernes de nettoyage des données prennent en charge le traitement en mémoire, où les données sources sont importées dans une mémoire temporaire plutôt que dans une base de données physique. Vous pouvez tester vos configurations de nettoyage et de déduplication dans la mémoire temporaire, puis la réexporter une fois que vous êtes satisfait des résultats.

Lorsque vous décidez d’une approche de nettoyage des données pour votre entrepôt de données, assurez-vous que la méthode choisie peut :

  • Gérer les incohérences et les erreurs dans les intégrations de données à source unique et à sources multiples.
  • Minimiser le codage manuel et l’effort manuel de révision des données pour valider la qualité.y
  • être utilisée pour des sources autres que celles définies initialement, de sorte que l’approche reste valable lorsque vous devez ajouter ultérieurement d’autres sources dans votre entrepôt de données
  • Travailler avec des transformations de données basées sur des schémas qui reposent sur des métadonnées.
  • Identifier les enregistrements liés entre les sources à des fins de déduplication et d’enrichissement.
  • Fournir des fonctionnalités d’orchestration des flux de travail pour prendre en charge et créer une base solide pour les règles de qualité des données appliquées à l’échelle pour nettoyer les données de l’entreprise.

Nettoyage des données dans l’intégration d’une source unique

Comme nous l’avons vu précédemment, nous allons segmenter les problèmes de nettoyage des données dans l’entrepôt de données en deux grandes catégories d’intégration de données, en raison des défis uniques de nettoyage des données que chacune présente :

  • Intégration de données à source unique
  • Intégration de données provenant de sources multiples

Pour ces deux catégories, nous examinerons plus en détail les problèmes de nettoyage des données au niveau des schémas et des instances. Les problèmes liés aux schémas sont ceux pour lesquels les données peuvent être nettoyées en travaillant à l’amélioration de la conception des schémas, tandis que les problèmes liés aux instances concernent les erreurs à un niveau inférieur, dans le contenu des champs de la table.

L’un des facteurs les plus importants pour garantir une meilleure qualité des données est la disponibilité de contraintes dans vos schémas de données. Si vous avez mis en place des contraintes dans le système pour contrôler les données autorisées, vous aurez considérablement réduit les efforts de nettoyage des données. Moins votre schéma comporte de contraintes, plus l’effort de nettoyage des données est important. Un moyen très efficace d’y parvenir consiste à intégrer un logiciel de qualité des données dans vos systèmes et applications et à prédéfinir des règles de gestion en fonction des contraintes que vous souhaitez mettre en œuvre.

L’intégration basée sur l’API de Data Ladder garantit que toutes les données d’entrée sont vérifiées par rapport à vos règles commerciales en temps réel, que les données soient entrées dans votre CRM ou chargées dans une base de données SQL auparavant.

Voici quelques exemples qui vous aideront à comprendre les problèmes de qualité des données liés aux schémas :

Données :

Date de naissance = 20.15.90

Problème :

Valeurs non permises

Raison :

Les valeurs saisies pour la date de naissance sont en dehors de la plage autorisée parce qu’il ne peut pas y avoir de 15ème anniversaire.e mois.

D’autres exemples pourraient inclure des problèmes d’intégrité référentielle, lorsqu’un champ fait référence à un ID de département spécifique mais que cet ID de département n’a pas été défini dans le système. Ou des problèmes d’unicité lorsque le numéro de sécurité sociale de deux employés est le même.

D’autre part, les problèmes liés aux instances peuvent résulter de fautes d’orthographe (nom de l’état = Coloradoo), d’abréviations utilisées par erreur lors de la saisie des données (profession = DB prog) et de références incorrectes (employé = [name= « John », deptID= « 22 »], alors que le deptID réel de cet employé était 12).

Comme vous pouvez le constater, si ces problèmes ne sont pas résolus, les requêtes utilisant ces données renverront des informations incorrectes, ce qui pourrait conduire à des décisions commerciales basées sur de mauvaises données.

Nettoyage des données dans l’intégration de sources multiples

Naturellement, les problèmes de qualité des données sont multipliés lorsque vous intégrez des données provenant de plusieurs sources dans votre entrepôt de données. Outre les problèmes généraux tels que les fautes d’orthographe et les références incorrectes dans la saisie des données, vous devez réconcilier les données entre plusieurs représentations et construire des enregistrements « maîtres » pour que votre vision de la « Source unique de vérité » devienne réalité. Vous devez également gérer les problèmes de redondance des données, lorsque celles-ci se chevauchent entre les systèmes.

En ce qui concerne la conception des schémas, vous devrez principalement gérer les conflits de structure et de dénomination dans différents systèmes sources. Les conflits structurels peuvent inclure des types de données différents, des contraintes d’intégrité, la structure des composants, etc. En ce qui concerne les problèmes liés aux instances, les sources multiples signifient probablement que le même attribut est représenté différemment dans les différents systèmes. Par exemple : MaritalStatus pourrait être « Married » ou « Single » dans un système, tandis qu’un autre pourrait avoir un enregistrement pour RelationshipStatus avec des attributs complètement différents – mais indiquant également l’état civil.

Duplication des données est une autre question très importante ici, en particulier lorsque vous avez plusieurs enregistrements dans plusieurs systèmes qui pointent vers la même entité. Les entreprises possèdent des millions d’enregistrements relatifs aux clients, aux vendeurs et aux employés, souvent dans différentes bases de données. Ces bases de données comportent de nombreux enregistrements en double, ce qui entraîne une diminution de l’efficacité opérationnelle ainsi que des informations manquantes. Les enregistrements multiples signifient que les détails du même client/entité sont répartis sur plusieurs enregistrements. Suppression des doublons et fusion des enregistrements
augmente l’efficacité de la base de données
tout en créant une source unique de vérité.

Table des clients (système source ABC) :

CID Nom Rue Ville Sexe
11 Kristen Smith 2 Hurley Pl South Fork, MN 48503 0
24 Christian Smith Hurley St 2 S Fork MN 1

Table client (système source XYZ) :

Cno Nom de famille Prénom Genre Adresse Téléphone/Fax
11 Smith Christoph M 23 Harley St, Chicago IL, 60633-2394 333-222-6542 / 333-222-6599
493 Smith Kris L. F 2 Hurley Place, South Fork MN, 48503-5998 444-555-6666

Table des clients (intégrée après le nettoyage des données pour l’entrepôt de données cible) :

Non LName Nom du FN Genre Rue Ville État ZIP Téléphone Fax CID Cno
1 Smith Kristen L. F 2 Hurley Place Fourche sud MN 48503-5998 444-555-6666 11 493
2 Smith Christian M 2 Hurley Place Fourche sud MN 48503-5998 24
3 Smith Christoph M 23, rue Harley Chicago IL 60633-2394 333-222-6542 333-222-6599 11

L’intégration des données dans votre entrepôt de données s’articule autour de deux processus importants :

  • Reconnaître si la même entité existe dans les deux sources
  • Combinaison de données d’entités pour obtenir une vue consolidée d’une table d’entités

Pour obtenir une vue propre et complète, vous devez fusionner les données connexes tout en éliminant les doublons redondants, comme le montre l’exemple ci-dessus. Ce processus est communément appelé
fusionner purger
‘ – processus consistant à combiner des données provenant de deux ou plusieurs sources, à identifier et/ou combiner les doublons, et à éliminer (purger) les enregistrements indésirables.

Pour utiliser votre entrepôt de données à son plein potentiel, la purge de fusion est essentielle. Les données peuvent être analysées pour trouver des informations, augmenter l’efficacité et découvrir des problèmes lorsque vous concevez votre entrepôt de données pour qu’il soit la « source unique de vérité » dans toute l’entreprise. Fusion purge vous permet de choisir comment les données doivent être fusionnées et purgées. Choisissez les règles de survie des données qui répondent le mieux à votre objectif et notre outil de purge par fusion passera en revue des millions d’enregistrements, les combinant en enregistrements dorés complets. Vos données d’origine sont conservées sous leur forme originale, et un nouvel ensemble de données est créé, contenant toutes les informations.

Intégrer des capacités d’analyse fiables et précises dans votre entrepôt de données

Le logiciel de qualité des données de Data Ladder a été classé comme la plateforme la plus rapide et la plus précise pour le couplage d’enregistrements dans plusieurs études indépendantes. Tirez parti de nos puissantes capacités de mise en correspondance exclusives pour détecter et éliminer les doublons, ou fusionner et survivre aux données afin de créer une  » base de données « .une source unique de véritéen utilisant des techniques de correspondance floue, d’analyse syntaxique intelligente et de reconnaissance des formes de classe mondiale.

« Ce que je préfère dans DataMatch, c’est sa facilité et sa souplesse d’utilisation. Je peux utiliser des données provenant de pratiquement n’importe quelle source de données, y compris des connexions ODBC, des fichiers CSV et des fichiers JSON. Il fait un excellent travail de nettoyage des données, ce qui rend le processus de rapprochement encore plus puissant. »

Nick Corder, architecte de plate-forme

La rapidité, la précision et le faible coût inégalés de DataMatch Enterprise font de la mise en correspondance et de la liaison des enregistrements de tous vos référentiels de données un jeu d’enfant, grâce à la grande variété d’intégrations que DataMatch Enterprise propose d’emblée.

Améliorez votre stratégie de nettoyage dans l’entrepôt de données en tirant parti de notre intégration native avec les nombreuses sources de données et des fonctions avancées de couplage d’enregistrements pour trouver des correspondances de données dans tous les référentiels pris en charge, que vos données vivent dans des plateformes de médias sociaux et des systèmes hérités ou dans des bases de données traditionnelles et des fichiers plats, voire des lacs de Big Data. Data Ladder s’intègre à pratiquement tous les systèmes modernes pour vous aider à tirer le meilleur parti de votre entrepôt de données.


Prenez contact
avec nos architectes de solutions pour élaborer un plan de nettoyage, d’épuration et de validation des données à l’aide de techniques d’automatisation avancées, tout en construisant votre entrepôt de données et en veillant à ce que vos utilisateurs bénéficient d’analyses précises.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.