Blog

Nettoyage des données et qualité du couplage des enregistrements

Le couplage d’enregistrements est une méthode utilisée pour relier les enregistrements de données aux mêmes entités, telles que les clients. Le couplage d’enregistrements peut être utilisé pour améliorer la qualité et l’intégrité des données, afin de permettre la réutilisation des sources de données existantes. Lorsque nous traitons des données provenant de diverses sources, qu’il s’agisse d’examens, de données internes, de fournisseurs de données externes ou de données extraites du web, nous souhaitons souvent établir des liens entre des individus ou des entreprises dans les ensembles de données. Malheureusement, nous ne commençons presque jamais avec des données parfaitement propres. Lors de l’utilisation de données structurées, les individus font des erreurs d’inattention comme la confusion des lettres dans les noms, les valeurs individuelles sont enregistrées de manière erronée et l’erreur de mesure a un impact sur les résultats. De nombreuses choses peuvent se produire avant que nous puissions accéder aux données. Parfois, et c’est peut-être encore plus ennuyeux, des sources différentes utilisent simplement des noms différents pour une même entité. Ces petites différences font qu’il est terriblement difficile de simplement fusionner les données sur les identifiants distinctifs. Le processus permettant de relier les données d’un individu ou d’une entreprise entre les sources est appelé couplage d’enregistrements. Le couplage d’enregistrements (RL) est le processus qui consiste à trouver le même enregistrement dans plusieurs ensembles de données. Les documents peuvent être des personnes, des livres, etc. Elle est devenue une discipline importante en informatique et dans le domaine du Big Data.

Quelle que soit la méthode de couplage utilisée, la procédure de couplage est généralement précédée d’une étape de nettoyage des données. Le nettoyage des données (parfois appelé normalisation des données ou épuration des données) comprend la modification, l’élimination ou l’altération d’une manière ou d’une autre des champs en fonction de leurs valeurs. Ces nouvelles valeurs devraient améliorer la qualité des données et donc être plus utiles dans le processus de couplage. Il existe deux types de couplage de données :
Déterministe
Le couplage d’enregistrements déterministe produit des associations établies sur le nombre d’identifiants distincts qui sont égaux parmi les groupes de données existants. On suppose que deux enregistrements correspondent par le biais d’un processus déterministe d’association d’enregistrements si tous ou certains identifiants sont identiques.
Probabiliste
Cette méthode, parfois appelée « fuzzy matching » (correspondance floue). incluent une méthode différente pour résoudre le problème du couplage d’enregistrements en considérant une plus grande variété d’identificateurs potentiels, en calculant des poids pour chaque identificateur en fonction de sa capacité prévue à classer correctement une correspondance ou une non-correspondance, et en utilisant ces poids pour calculer la probabilité que deux enregistrements supposés se rapportent à une entité similaire. Les paires d’enregistrements dont la probabilité est supérieure à un certain bord sont considérées comme des correspondances, tandis que les paires dont la probabilité est inférieure à un autre bord sont considérées comme des non-correspondances ; les paires qui se situent entre ces deux bords sont considérées comme des « correspondances possibles » et peuvent être traitées en conséquence.
Le défi du couplage des enregistrements
Un défi majeur dans le couplage d’enregistrements est le manque d’identifiants communs d’objets dans les divers systèmes sources à coordonner. En conséquence, la correspondance doit être dirigée en utilisant des qualités qui contiennent des informations partiellement identifiantes, telles que des noms, des adresses ou des dates de naissance. Bien que ces informations de classification soient souvent de faible qualité et souffrent notamment de différences et de fautes typographiques régulières, ces informations peuvent changer avec le temps, les erreurs humaines ou elles ne sont que partiellement disponibles dans les sources à coordonner. Au cours de la dernière décennie, des progrès substantiels ont été réalisés dans différents aspects du processus de couplage d’enregistrements, en particulier sur la manière d’augmenter la précision du couplage de données, et sur la manière de mesurer le couplage de données à de très grands systèmes qui contiennent des millions d’enregistrements.

Qualité des données et nettoyage des données

Le processus de nettoyage des données comprend la suppression des données rejetées, périmées ou erronées. Des données propres sont un élément essentiel pour obtenir des informations, des rapports et des analyses corrects. Dans l’ensemble de l’organisation, les individus prennent des décisions commerciales fondées sur les données qui leur sont fournies. Le nettoyage des données offre des données de haute qualité qui aident à surmonter les problèmes de fraude et permettent aux organisations de se conformer aux réglementations. Des données de haute qualité sur les entités commerciales clés offrent le canal de croissance d’une entreprise prospère.
En utilisant des techniques de nettoyage des données, les organisations peuvent rapidement faire correspondre et reconnaître les doublons dans leurs données. Des dossiers clients propres permettent des ventes et une publicité efficaces et aident l’organisation à se développer. Imaginez que vous contactiez le même client à plusieurs reprises uniquement en raison de plusieurs entrées dans le système – coûteux et long pour le personnel de vente et d’assistance, difficile pour l’analyste de données, encombrant pour le développeur BI et frustrant pour le client. La mauvaise qualité des données nuit également à la valeur de la marque et à l’expérience du client.
Sélection d’attributs clés dans le couplage d’enregistrements
Il s’agit de choisir les meilleures caractéristiques sur lesquelles nous pouvons différencier deux individus qui se ressemblent. Pour les enregistrements individuels, le nom, le prénom, l’adresse et l’e-mail sont les principales caractéristiques. L’objectif est de créer, pour une paire d’enregistrements, un « vecteur de comparaison » des scores de ressemblance de chaque attribut composant. Les scores de ressemblance peuvent être simplement booléens (correspondance ou non-correspondance) ou être des valeurs réelles avec des fonctions de distance.

Prototypage

Il s’agit de développer des programmes pour effectuer le couplage d’enregistrements et le traitement de données sur de petits échantillons de données avant de les appliquer à l’ensemble des données. En règle générale, la taille des ensembles de données est énorme et nécessite beaucoup de temps et de calculs. Cela permet d’affiner les algorithmes et le processus de couplage des enregistrements, car les délais d’exécution des tests diminuent considérablement. Il est important que l’ensemble d’échantillons soit la représentation de l’ensemble des données réelles.

Appariement par paires

Après la construction d’un vecteur de similarités en composantes pour une paire d’enregistrements, il est important de calculer la probabilité que la paire enregistrée soit une correspondance. Il existe de nombreuses méthodes pour déterminer la probabilité d’une correspondance. Deux méthodes simples consistent à utiliser une somme pondérée ou une moyenne des scores de similarité des composants. Une autre méthode simple consiste à appliquer une correspondance basée sur des règles, mais la formation manuelle est difficile. Les scores de similarité sont générés sur la base de plusieurs algorithmes de correspondance normale des chaînes de caractères, notamment les algorithmes de distance d’édition et de correspondance floue des chaînes de caractères.

Mesure de la performance

La qualité du couplage des enregistrements peut être mesurée à l’aide de la dimension suivante :

  • Le nombre de paires d’enregistrements liés correctement (vrais positifs)
  • Le nombre de paires d’enregistrements liés de manière incorrecte (faux positifs, erreur de type I).
  • Le nombre de paires d’enregistrements dissociés correctement (vrais négatifs).

Le nombre de paires d’enregistrements non reliées de manière incorrecte (faux négatifs, erreur de type II).

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.