Blog

Fusionner des données provenant de sources multiples – Défis et solutions

Fusionner des données provenant de plusieurs sources

La fusion des données est un processus par lequel les données sont unifiées à partir de sources multiples pour représenter un point de référence unique ou un point de vérité unique. Bien qu’il s’agisse d’un objectif apparemment simple, la fusion des données est un processus aussi compliqué que de démêler une pelote de fil nouée. La raison ? Une entreprise moyenne a déployé environ 464 applications personnalisées pour gérer ses processus opérationnels.

En outre, la plupart des bases de données présentent des problèmes de duplication, d’incohérence et d’inexactitude. Le nom et l’adresse d’un client peuvent être écrits de 10 façons différentes par 10 personnes différentes dans 10 référentiels de données différents. En outre, ces données proviennent de dix sources différentes : sites web, formulaires de pages de renvoi, publicités sur les médias sociaux, registres des ventes, registres de facturation, registres de marketing, registres des points d’achat et autres domaines dans lesquels le client a pu interagir avec l’entreprise.

Mais lorsqu’il s’agit de tirer des enseignements utiles des données collectées, il devient important de combiner toutes ces sources de données et d’obtenir un point de référence unique.

Dans cet article, nous aborderons des sujets essentiels tels que :

  • Scénarios où la fusion des données devient nécessaire
  • Comment fusionner des données provenant de plusieurs sources
  • Défis rencontrés lors du processus de fusion des données
  • Meilleures pratiques pour permettre une fusion des données sans heurts

Commençons.

Scénarios où la fusion des données devient nécessaire

Voyons plus en détail l’importance de la fusion de données provenant de sources multiples dans trois scénarios différents :

1. Initiative de transformation numérique

La fusion de données est nécessaire pour déplacer des fichiers disparates (tels que des fichiers texte, des CSV, des feuilles Excel, des bases de données SQL ou d’autres formats de fichiers) vers un système complet d’hébergement et de traitement des données, et pour permettre l’automatisation des flux de travail, l’amélioration des capacités de recherche, le contrôle de l’accès aux informations, etc.

2. Favoriser l’intelligence économique

La fusion de données se produit généralement lors de la combinaison de données résidant dans différentes applications (telles que les CRM, les outils d’automatisation du marketing, les outils d’analyse de sites Web, etc.), et les fusionne pour préparer l’analyse et le traitement ultérieurs des données, et extraire des informations utiles pour les prévisions futures.

3. Intégration des données après les fusions et acquisitions

Les fusions et acquisitions comportent des éléments mobiles complexes, et l’une des étapes les plus compliquées consiste à combiner les données de différentes entreprises en un seul référentiel, puis à rendre les processus compatibles avec les projets, structures et flux de travail nouvellement fusionnés.

Comment fusionner des données provenant de plusieurs sources

La fusion des données doit être traitée comme un processus étroitement surveillé et contrôlé afin d’éviter la perte de données ou de causer des dommages irréversibles aux structures de données individuelles concernées. Nous avons mis en évidence ci-dessous les trois étapes de la fusion des données :

Processus de pré-fusion

1. Profilage des données

Sans profilage des sources de données individuelles, il est difficile de comprendre les données que vous traitez ou l’impact de vos décisions pendant le processus de fusion. Un processus de profilage des données donne un aperçu de deux parties importantes de vos données :

a. Analyse des attributs

Il identifie et met en évidence la liste des attributs (colonnes de données) que chaque source de données contient. Cela vous aide à comprendre comment vos données fusionnées peuvent s’échelonner verticalement, en fonction des attributs qui peuvent être fusionnés et de ceux qui doivent être ajoutés car ils représentent des informations distinctes.

b. Analyse statistique de chaque attribut

Il analyse les valeurs des données contenues dans chaque colonne d’une source pour évaluer la distribution, l’exhaustivité et l’unicité des attributs. En outre, un profil de données valide également les valeurs par rapport à un modèle défini et met en évidence les valeurs non valides.

Précisément, les profils de données calculent et présentent l’état actuel de vos sources de données, et mettent en évidence les possibilités de nettoyage et autres considérations avant que le processus de fusion ne puisse réellement commencer.

2. Nettoyage, normalisation et transformation des données

Il n’est pas pratique de fusionner des sources de données qui contiennent des valeurs incomplètes, inexactes ou invalides. Les attributs de données de deux sources différentes peuvent représenter conceptuellement la même information, mais le format de leurs valeurs de données peut être complètement différent. Ces différences structurelles et lexicales dans les données peuvent entraîner des pertes de données et des erreurs irréparables si les données sont fusionnées sans avoir été nettoyées et normalisées. En utilisant les profils de données générés comme point de référence, un certain nombre de mesures sont prises pour normaliser la qualité des données, dont quelques-unes sont présentées ci-dessous :

  • Remplacement des caractères non valides par des valeurs correctes (par exemple, remplacement des caractères non imprimables, des valeurs nulles, des espaces avant ou arrière, etc.)
  • L’analyse syntaxique des champs de données longs en composants plus petits afin de normaliser les données entre plusieurs sources (par exemple, l’analyse syntaxique du champ Adresse en numéro de rue, nom de rue, ville, code postal et pays). L’analyse des champs de données de cette manière garantit que l’exactitude des données est maintenue après la fusion des données.
  • Définir les contraintes d’intégrité, les validations de modèle et les types de données autorisés pour tous les attributs (par exemple, le nombre maximum/minimum de caractères autorisés pour le champ Nombre , qui ne peut contenir que des chiffres ou des tirets dans un modèle tel que NNN-NNN-NNNN).
3. Filtrage des données

Il se peut que vous souhaitiez simplement fusionner des sous-ensembles de vos sources de données au lieu d’effectuer une fusion complète. Ce découpage horizontal ou vertical de vos données est généralement nécessaire dans les cas suivants :

  • Vous voulez fusionner les données tombant dans une certaine période de temps (découpage horizontal).
  • Vous voulez fusionner des données pour les analyser et seul un sous-ensemble de lignes répond aux critères conditionnels (découpage horizontal).
  • Vos données contiennent un certain nombre d’attributs qui ne contiennent pas d’informations utiles (découpage vertical).

Si vous souhaitez fusionner toutes les données sans rien omettre, vous pouvez passer à l’étape suivante.

4. Déduplication des données

Parfois, les organisations ont tendance à stocker les informations d’une même entité dans plusieurs sources. Chacun de ces enregistrements représente des données précieuses sur cette entité. La fusion des données devient difficile si vos ensembles de données contiennent des doublons. Avant de lancer le processus de fusion, il est essentiel de mettre en œuvre des algorithmes de rapprochement des données appropriés pour identifier les doublons, appliquer des règles conditionnelles pour supprimer les doublons et assurer l’unicité des enregistrements dans toutes les sources.

Processus de fusion : Agrégation/intégration des données

Les données sont maintenant prêtes à entrer dans le processus de fusion. En fonction de la finalité, les données peuvent être fusionnées de différentes manières :

  • Ajout de lignes
  • Ajout de colonnes
  • Ajout de lignes et de colonnes à la fois
  • Fusion conditionnelle

Examinons chacun de ces scénarios de manière un peu plus détaillée.

1. Ajouter des lignes

L’ajout de lignes est utile lorsque vous souhaitez rassembler et combiner des enregistrements provenant de différentes sources en un seul endroit.

Un exemple d’ajout de rangées est le cas où vous avez recueilli des informations sur les clients par le biais de plusieurs systèmes de gestion des contacts, mais que vous avez maintenant besoin de rassembler tous les enregistrements en un seul endroit.

Considérations

  • Toutes les sources de données à combiner doivent avoir la même structure (colonnes).
  • Les types de données, les contraintes d’intégrité et les validations de modèle des colonnes correspondantes doivent être les mêmes pour éviter les erreurs de format invalide.
  • En présence d’identificateurs uniques, assurez-vous que des sources différentes ne contiennent pas les mêmes identificateurs uniques, sinon cela entraînera des erreurs lors du processus de fusion.
2. Ajouter des colonnes

L’ajout de colonnes est utile lorsque vous souhaitez ajouter des dimensions supplémentaires à des enregistrements existants.

Un exemple d’adjonction de colonnes est le cas où vous avez les coordonnées en ligne de vos clients dans un ensemble de données, et leurs coordonnées physiques ou résidentielles dans un autre, et que vous voulez combiner les deux ensembles de données en un seul.

Considérations

  • Toutes les colonnes de sources disparates doivent être uniques (pas de doublons).
  • Chaque enregistrement doit être identifiable de manière unique dans tous les ensembles de données, de sorte que les enregistrements ayant le même identifiant puissent être fusionnés.
  • Si un ensemble de données ne contient pas de données pour la colonne de fusion, vous pouvez alors spécifier des valeurs nulles pour tous les enregistrements de cet ensemble de données.
  • Si plusieurs ensembles de données contiennent les mêmes informations sur les dimensions, vous pouvez également fusionner les dimensions dans un seul champ (séparé par une virgule, etc.) si vous ne voulez pas perdre de données.
3. Fusion conditionnelle

La fusion conditionnelle est utile lorsque vous avez des ensembles de données incomplets qui doivent être fusionnés. Dans ce type de fusion, vous recherchez les valeurs d’un ensemble de données et les remplissez de manière appropriée dans les autres ensembles de données en fonction de l’enregistrement/attribut correct.

Un exemple de fusion conditionnelle est lorsque vous avez une liste de produits dans un ensemble de données, mais que les ventes moyennes par mois pour chacun d’entre eux sont capturées dans un autre ensemble de données. Maintenant, pour fusionner les données, vous pouvez avoir besoin de rechercher chaque vente de produit dans le deuxième ensemble de données et d’ajouter ces données à l’enregistrement correct du produit dans le premier ensemble de données. Cela se fait généralement lorsque vous n’avez pas d’identifiants uniques dans un ensemble de données et que vous devez donc effectuer une comparaison conditionnelle basée sur une autre colonne et fusionner en conséquence.

Considérations

  • L’ensemble de données à partir duquel vous recherchez des valeurs doit contenir tous les enregistrements uniques (par exemple, un numéro de vente moyen pour chaque produit).
  • L’ensemble de données auquel vous ajoutez des données peut être non unique (par exemple, les produits sont répertoriés par emplacement et le même produit vendu dans plusieurs emplacements peut donc être répertorié plusieurs fois).

Note supplémentaire

Le type de fusion que vous utilisez dépend fortement de votre cas d’utilisation spécifique. Si vos ensembles de données ne contiennent pas beaucoup de valeurs nulles et sont relativement complets, l’ajout de lignes ou de colonnes, ou des deux, peut répondre à vos besoins. Mais lorsque vous rencontrez des lacunes dans vos ensembles de données, vous pouvez avoir besoin de rechercher et de combler ces valeurs en premier lieu. Très souvent, les organisations utilisent toutes les techniques de fusion de données pour rassembler leurs données. Par exemple, vous pouvez d’abord effectuer une fusion conditionnelle, puis compléter le processus de fusion en ajoutant également des lignes et des colonnes.

Processus post-fusion

1. Profilage de la source fusionnée

Une fois que le processus de fusion est terminé, il est essentiel d’effectuer un contrôle final du profil de la source fusionnée, tout comme celui effectué au début du processus pour les sources individuelles. Cela permettra de signaler toute erreur rencontrée lors de la fusion, et de mettre en évidence si des informations sont laissées incomplètes, inexactes, ou contiennent des valeurs non valides, etc.

Défis rencontrés lors du processus de fusion des données

1. Hétérogénéité des données

L’un des plus grands défis rencontrés lors de la fusion des données est l’hétérogénéité des données – les différences structurelles et lexicales présentes dans les ensembles de données à fusionner.

a. Hétérogénéité structurelle

Lorsque ces ensembles de données ne contiennent pas le même nombre et les mêmes types de colonnes/attributs, on parle d’hétérogénéité structurelle. Par exemple, une base de données peut stocker le nom d’un contact en tant que Nom du contact, tandis que dans une autre base de données, il est stocké dans plusieurs colonnes telles que Salutation, Prénom, Second prénom et Nom de famille.

b. Hétérogénéité lexicale

L’hétérogénéité lexicale se produit lorsque les champs de différentes bases de données sont structurellement les mêmes, mais qu’ils représentent la même information d’une manière syntaxiquement différente. Par exemple, deux bases de données ou plus peuvent avoir le même champ Adresse , mais l’une peut avoir une valeur d’adresse : 32 E St. 4, alors que l’autre peut avoir 32 East, 4 th Rue.

Pour surmonter ce problème, les colonnes doivent être analysées et fusionnées pour obtenir la même structure dans tous les ensembles de données. En outre, les valeurs des colonnes doivent être transformées pour suivre la même syntaxe.

2. Évolutivité

En général, les initiatives de fusion de données sont planifiées et mises en œuvre en gardant à l’esprit un nombre déterminé de sources et de types, et ne laissent aucune place à l’évolutivité. Il s’agit d’un défi de taille, car les besoins des organisations se transforment au fil du temps et elles ont besoin d’un système capable d’intégrer davantage de sources de données dont les structures et les mécanismes de stockage varient.

Pour surmonter ce défi, il est important de mettre en œuvre et d’utiliser une conception d’intégration évolutive pendant le processus de fusion, plutôt que de coder en dur l’intégration à certaines sources seulement. Un système d’intégration de données réutilisable tient compte des possibilités actuelles et futures et construit une architecture évolutive qui extrait des données de plusieurs sources et prend en charge différents formats de données, tels que les API, les bases de données SQL, les fichiers texte, les entrepôts ETL, etc.

3. Duplication

Quelle que soit la technique de fusion des données que vous envisagez de mettre en œuvre, la duplication des données est un problème majeur qui doit être résolu. Les doublons peuvent exister dans votre base de données sous différentes formes, dont certaines sont courantes :

  • Plusieurs enregistrements représentant la même entité (qui peut ou non avoir un identifiant unique).
  • Plusieurs attributs stockant les mêmes informations sur une entité.
  • Enregistrements ou attributs en double stockés dans le même ensemble de données, ou s’étendant sur plusieurs ensembles de données.

Ce problème de duplication peut être résolu par :

  • Sélectionner et configurer des algorithmes appropriés de mise en correspondance des données qui identifient les enregistrements représentant la même entité. En l’absence d’identifiants uniques, une combinaison d’algorithmes avancés de correspondance floue doit être utilisée pour trouver des correspondances précises.
  • Définition d’un ensemble de règles conditionnelles qui évaluent intelligemment les colonnes identiques ou similaires et suggèrent lesquels de ces attributs contiennent des valeurs plus complètes, plus précises et plus valides.

4. Un long processus de fusion

Les processus d’intégration des données ont tendance à être plus longs que prévu. La raison la plus fréquente en est une mauvaise planification et des attentes irréalistes fixées au départ. Il est plus facile de commencer quelque chose à partir de zéro que de corriger ce qui a déjà été mis en œuvre, et qui est en vigueur depuis des décennies.

Il est essentiel de tenir compte de la quantité de données que vous traitez et d’évaluer les profils de données de toutes les sources avant de pouvoir élaborer un plan de mise en œuvre réaliste.

Les ajouts ou modifications de dernière minute sont une autre raison de la lenteur des projets d’intégration. L’équipe doit consacrer un certain temps au processus de pré-évaluation et recueillir des informations auprès de toutes les parties prenantes concernées, telles que les utilisateurs professionnels (qui saisissent/capturent les données), les administrateurs (qui gèrent les données) et les analystes de données (qui donnent un sens aux données).

Meilleures pratiques pour permettre une fusion des données sans heurts

1. Savoir ce qu’il faut intégrer

Avant de lancer le processus d’intégration des données, prenez le temps d’évaluer les sources de données concernées. Cela permet d’identifier exactement ce qu’il faut combiner – les sources et les attributs qu’elles contiennent. Il se peut que les anciens enregistrements soient périmés et ne doivent pas être pris en compte dans le processus d’intégration. Le fait de savoir exactement ce qu’il faut combiner augmentera la vitesse et la précision du processus.

2. Visualiser les données

Il est toujours préférable de comprendre les données que l’on traite, et le moyen le plus rapide d’y parvenir est de les visualiser. Non seulement elle est plus facile à évaluer, mais elle vous donne une vue complète de toutes les valeurs aberrantes ou invalidantes qui peuvent se trouver dans votre ensemble de données. Les histogrammes statistiques et les diagrammes à barres montrant l’exhaustivité des attributs peuvent être très utiles.

3. Essayez les outils automatisés en libre-service

La réalisation manuelle de l’ensemble du processus d’intégration et d’agrégation des données semble être un processus gourmand en ressources et en coûts. Essayez les outils d’intégration de données automatisés et en libre-service qui offrent une solution tout-en-un pour le profilage, le nettoyage, le rapprochement, l’intégration et le chargement rapides, précis et approfondis des données.

DataMatch Enterprise de Data Ladder est l’un de ces outils qui prend en charge de manière transparente une grande variété de types et de formats de données, y compris les fichiers locaux (fichiers texte, CSV, feuilles Excel), les bases de données (SQL Server, Oracle, Teradata), les magasins en nuage (CRM tels que Salesforce), les API et d’autres bases de données utilisant une connexion ODBC, ainsi que la création de connecteurs natifs en fonction des besoins spécifiques des utilisateurs.

4. Décider où héberger les données fusionnées

Vous pouvez souhaiter fusionner les données de toutes les sources en une seule source de destination, ou charger l’ensemble de données fusionnées dans une toute nouvelle source. En fonction de vos besoins, assurez-vous que vous avez testé, conçu et structuré la source de destination en conséquence, afin qu’elle puisse supporter efficacement les données fusionnées entrantes.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.