Blog

Matching Evolution : Trouver des correspondances dans toute l’entreprise et affiner les résultats de façon moderne



A
lors que les données subissent un changement de paradigme il en va de même
les systèmes, processus et approches concernés. Les anciens systèmes sont en train de mourir. Lot Lespipelines ETL deviennent lentement obsolètes. La propriété s’éloigne de L’informatique au service des entreprises. Des fonctions telles que le rapprochement et la préparation des données évoluent manuelle, basée sur des requêtes et programmatique, à une fonction automatisée, de type pointer-cliquer, centrée sur l’entreprise.

-de l’entreprise
les processus.
Il existe une approche moderne du rapprochement des données, qui promet des taux de précision élevés, peu de faux positifs et ne prend que quelques minutes au lieu de semaines et de mois.

Ce guide sur le rapprochement moderne des données explique les processus impliqués, les différents types de scénarios dans lesquels cette approche permet de gagner du temps tout en augmentant l’efficacité, et enfin comment les utilisateurs peuvent régler les paramètres de rapprochement pour obtenir les meilleures correspondances possibles.

Qu’est-ce que la comparaison de données ?

Lerapprochement des données compare les données de plusieurs enregistrements pour déterminer les champs qui font référence à la même entité. En termes simples, le rapprochement des données permet à l’utilisateur de détecter les enregistrements en double ou/et de fusionner des enregistrements identiques. Elle est réalisée à l’aide d’algorithmes établis qui sont conçus pour comparer différents types de données telles que des chaînes de caractères, des dates et des nombres entiers. La nature des données devenant de plus en plus complexe, le rapprochement ne se limite plus à la comparaison de deux enregistrements. Il implique des processus clés tels que le profilage des données, leur exhaustivité, leur exactitude, etc.

Les bases – Correspondance déterministe et probabiliste

Connue sous plusieurs appellations, comme le couplage d’enregistrements ou de données, la résolution d’entités, l’identification d’objets ou la mise en correspondance de champs, la mise en correspondance de données est la tâche qui consiste à identifier, à mettre en correspondance et à fusionner des enregistrements qui se rapportent à la même entité dans ou entre plusieurs bases de données.

Traditionnellement, le rapprochement des données était effectué en exécutant des requêtes utilisant des algorithmes et des formules complexes pour faire correspondre les enregistrements. La mise en correspondance déterministe et la mise en correspondance probabiliste sont les deux approches de mise en correspondance de données les plus courantes qui utilisent des algorithmes tels que la distance d’édition, le Soundex, la distance de Levenshtein pour mettre en correspondance des chaînes de caractères et renvoyer un résultat de correspondance.

La méthode déterministe est simple. Si vous avez deux champs de données qui ont les mêmes propriétés, vous pouvez utiliser cette méthode pour trouver des correspondances. La condition est que vos données soient irréprochables et normalisées. Les identifiants uniques tels que les numéros de sécurité sociale, les numéros de permis de conduire et de passeport doivent être exacts. Plus facile à dire qu’à faire, d’autant plus qu’il y a toujours un risque d’erreur de la part de l’utilisateur. En outre, comme il s’agit d’informations confidentielles, il y a peu de chances que les entreprises puissent mettre la main sur ces informations. Ils ont alors recours aux numéros de téléphone, aux adresses électroniques comme identifiants uniques. Mais ces données sont toujours entachées d’erreurs, de valeurs nulles et d’autres problèmes de qualité des données.

Unbon exemple de correspondance déterministe est celui d’une banque qui fait correspondre les numéros de compte des consommateurs avec leur nom et leur date de naissance pour confirmer leur identité, ou celui d’un magasin de détail qui utilise les numéros de facture pour les faire correspondre aux numéros de produit afin de confirmer les ventes.

La correspondance déterministe fonctionne bien lorsque les règles sont définies, que les données sont propres et que vous êtes sûr que les identifiants uniques sont exacts.

Mais les données dont nous disposons aujourd’hui ne répondent guère à ces règles.

D’où la nécessité d’une correspondance probabiliste.

La correspondance probabiliste utilise une approche statistique pour mesurer la probabilité que deux fiches clients représentent la même personne. Cette méthodologie utilise plusieurs algorithmes de correspondance floue pour déterminer une correspondance, une non-correspondance ou une correspondance possible. Comme une correspondance déterministe, la correspondance probabiliste exige que les données soient propres et normalisées, mais elle ne doit pas nécessairement être « exacte ».

Si Jean s’écrit Johnny, une solution intelligente de rapprochement des données devrait pouvoir le détecter comme une correspondance potentielle sur la base de certaines règles commerciales qui sont généralement prédéfinies dans une solution commerciale.

Unbon exemple de correspondance probabiliste est celui d’une entreprise qui dispose de plusieurs adresses électroniques et numéros de téléphone (portable/bureau/domicile) d’une même personne sans qu’aucun identifiant unique ne permette de déterminer son identité. Dans ce cas, l’entreprise devra exécuter plusieurs algorithmes pour déterminer les identités à partir de chaînes de caractères et de valeurs entières.

C’est là que les algorithmes de correspondance floue entrent en jeu.

Plutôt que de marquer les enregistrements comme « correspondants » ou « non correspondants », la correspondance floue identifie la probabilité que deux enregistrements correspondent vraiment, selon qu’ils sont en accord ou en désaccord sur les différents identifiants. Voici une liste des différentes techniques de correspondance floue utilisées aujourd’hui :

  • Distance de Levenshtein (ou distance d’édition)
  • Distance Damerau-Levenshtein
  • Distance entre Jaro-Winkler
  • Distance du clavier
  • Distance de Kullback-Leibler
  • Indice Jaccard
  • Métaphone 3
  • Variante du nom
  • Alignement des syllabes
  • Acronyme

Vous pouvez lire le guide suivant pour en savoir plus sur la correspondance floue et comment elle peut vous aider à faire correspondre des données complexes.

Guide d’appariement flou

Nettoyer et relier les données désordonnées dans toute l’entreprise

Le rapprochement moderne des données utilise à la fois des approches déterministes et probabilistes, selon la nature des données et le type de rapprochement que l’organisation doit effectuer.

Pour les deux méthodes, une exigence commune à tous les projets de jumelage réussis est celle de la qualité des données, qui est obtenue par la préparation des données.

Préparation des données pour le rapprochement des données

La nature des données est aujourd’hui tout sauf simple. Une entité peut avoir des dizaines de colonnes de données : numéros de téléphone (domicile, bureau, portable), adresses électroniques (personnelles/professionnelles), comptes de médias sociaux, identifiants d’appareils, etc. Ces données ne sont guère précises.

Pour correspondre à ces données, il faudrait les soumettre à un processus de nettoyage et de normalisation des données.

Les outils modernes de rapprochement des données, tels que DataMatch Enterprise de Data Ladder, permettent un processus de préparation des données automatisé.

Elles sont résumées ci-dessous :

Processus

Objectif

Intégration de données

DataMatch Enterprise permet l’intégration native de plus de 500 sources de données, y compris les CRM les plus populaires tels que Salesforce, HubSpot, et bien d’autres encore.

Profilage des données

Examinez les données pour vérifier leur exactitude et leur exhaustivité. Le profilage des données vous permet d’évaluer la santé de vos données et de découvrir les lignes et les colonnes qui présentent des valeurs manquantes, des informations corrompues ou incomplètes, des champs nuls et bien plus encore.

Nettoyage et normalisation des données Utilisez des modèles et des expressions régulières pour nettoyer, trier et optimiser les données en vue de leur mise en correspondance. Transformez des données semi-structurées et sales en données propres et standardisées.

Le processus d’appariement – Création de définitions, attribution de règles

En théorie, le processus de rapprochement des données semble simple : vous comparez deux enregistrements, vous trouvez les informations communes aux deux et vous atteignez l’objectif de rapprochement.

En pratique, le rapprochement des données est un processus complexe dans lequel vous essayez de déterminer que
deux enregistrements font effectivement référence à la même entité.

Prenez par exemple le tableau ci-dessous.

Comment décider que les deux enregistrements appartiennent à la même personne ? Ou qu’ils peuvent être étiquetés comme des doublons ?

Prénom Nom de famille Adresse Téléphone
John Untel 1899 PA 0553333
Johnny D 1899 PA 0550123

Une façon d’aborder ce cas est de dire que parce que les enregistrements partagent des similitudes en termes de Johnny étant un surnom populaire pour John ou que les deux noms de famille commencent par D, il est probable qu’il s’agisse de doublons. Mais l’intuition ou les suppositions ne sont pas la bonne façon de procéder. D’où la nécessité de solutions de mise en correspondance qui peuvent utiliser plusieurs algorithmes de mise en correspondance pour déterminer si deux enregistrements sont similaires.

Tout d’abord, si le tableau comporte des identifiants uniques – qui, dans ce cas, pourraient être le numéro de téléphone -, il est facile de déterminer une correspondance. Mais en l’absence d’identifiants uniques, vous devrez utiliser une correspondance déterministe ou probabiliste pour déterminer la similarité des enregistrements.

Vous commencez le processus de comparaison en identifiant les attributs qui ne sont pas susceptibles de changer – par exemple, les noms de famille, la date de naissance, la taille, la couleur, etc. Ensuite, vous attribuez un type de correspondance (phonétique, exacte, floue) pour chaque attribut. Les noms, par exemple, peuvent être appariés phonétiquement. Les nombres et les dates peuvent être appariés par similitude.

Cette fonction est intégrée directement dans DataMatch Enterprise.

Vous sélectionnez la colonne de votre choix, choisissez un type de correspondance et commencez la correspondance. Vous pouvez également configurer la correspondance en fonction de trois paramètres essentiels : Tous, Entre et Dans.

  1. Tous : Cela permettra de rechercher des correspondances entre toutes les sources de données intégrées dans l’outil. Mais il ne se contente pas de regarder entre elles – il recherche également les doublons dans *chacune* d’entre elles. Traditionnellement, la recherche de doublons dans un seul fichier prendrait des semaines, mais avec une solution automatisée, vous pouvez désormais rechercher les correspondances dans chaque fichier et entre plusieurs fichiers.
  2. Entre : Si vous recherchez uniquement des correspondances entre les sources et non au sein des sources, vous pouvez configurer le paramètre de correspondance sur « entre ». Indiquez le nombre de sources de données que vous souhaitez faire correspondre, et la solution exécutera les correspondances entre ces sources sans rechercher les doublons à l’intérieur de celles-ci.

  3. Dans :
    Si vous souhaitez spécifiquement rechercher des correspondances ou des doublons dans une source de données, cette configuration vous permet d’analyser les lignes et les colonnes de cette source spécifique.

Ensuite, vous pouvez attribuer des pondérations à chaque attribut, c’est-à-dire déterminer l’importance d’un score de champ sur le score total de correspondance. Par exemple, si la première lettre de vos enregistrements correspond, l’outil ajoutera un pointage supplémentaire. C’est particulièrement utile si vous voulez faire correspondre des éléments comme les seconds prénoms (A vs Andrews) et des surnoms, mais il convient de les utiliser avec précaution car ils peuvent fausser vos résultats.

Pour effectuer une correspondance fiable, vous devez disposer d’un champ fiable et non modifiable, tel qu’un numéro SSN sur une adresse électronique. Une fois la correspondance effectuée, vous pouvez l’affiner pour obtenir des résultats encore plus précis.

Comment ajuster les résultats de la comparaison des données

Pour tirer le meilleur parti du match, vous pouvez créer vos règles de match. DME utilise un système unique
Créateur de modèles
pour créer des règles de correspondance personnalisées.

Prenons le scénario suivant :

Une entreprise dispose de deux colonnes de numéros de contact – mobile et fixe – pour chacun de ses contacts. Pendant un an, ces données ont été dupliquées, plusieurs centaines de lignes ne comportant ni numéro de téléphone mobile ni numéro de téléphone fixe. L’entreprise opte pour une correspondance floue au sein de la source de données afin d’éliminer les contacts en double. Après avoir préparé, nettoyé et transformé leurs données, ils obtiennent une liste consolidée de noms de famille uniques avec des numéros de téléphone mobile et fixe uniques. La plupart des entreprises s’arrêteraient ici.

Mais c’est là que ça devient intéressant.

Il existe une liste consolidée et unique, mais comment l’entreprise peut-elle être sûre que chaque contact possède le bon numéro de téléphone mobile et fixe ?

Il s’avère qu’il n’y avait pas de certitude.

Les numéros de la colonne mobile n’avaient pas d’indicatif de pays.

Numéros en plusieurs centaine de lignes fixes colonne étaient des numéros de téléphone mobile.

C’est ici que vous commencerez à affiner les résultats de la comparaison des données.

Avec la certitude que les données relatives au nom de famille sont uniques, elles peuvent être utilisées comme identifiant unique pour correspondre uniquement à la colonne Mobile et Landline. Dans ce cas, le préfixe du pays et l’indicatif régional sont les éléments qui différencient les téléphones mobiles des téléphones fixes. Comment affiner cette correspondance ?

DME utilise un
générateur de motifs
pour créer des configurations de correspondance personnalisées conçues pour des processus de correspondance complexes, comme dans le cas présent. À l’aide du générateur de motifs, l’utilisateur peut créer une expression qui attribue un préfixe (pays + indicatif régional) à tous les numéros de téléphone mobile. La colonne mobile sera appariée avec ce préfixe et tous les numéros sans préfixe se verront attribuer le préfixe. Ensuite, on compare le téléphone mobile et le téléphone fixe pour déterminer s’il y a des doublons. S’il n’y a pas de doublons, une dernière colonne avec le mobile mis à jour est créée. Dans ce générateur de modèles, l’utilisateur peut définir la plage de numéros – par exemple, tout numéro inférieur à 6 chiffres est un numéro incomplet ou inexact.

Pour finir, faites une copie du résultat final et comparez vos enregistrements de correspondance. Exportez les résultats vers une feuille de calcul et gardez une trace des changements que vous effectuez. DME vous facilite la tâche car l’outil stocke des copies de tous vos résultats de correspondance, ce qui vous permet de ne pas perdre les enregistrements précédents que vous souhaitez réévaluer.

Le réglage de la correspondance vous aide à réduire les faux positifs et négatifs. Les organisations n’ont pas la capacité de gérer un excès de faux positifs, d’où la nécessité de définir une correspondance qui ne soit pas large ou générique. Par exemple, l’utilisation des noms et prénoms (qui est souvent la méthode la plus simple) pour effectuer une correspondance entraînera un nombre élevé de faux positifs, car deux personnes distinctes peuvent avoir le même nom et prénom. Ainsi, une définition plus étroite, telle qu’un numéro de téléphone ou une adresse électronique, est préférable car deux utilisateurs n’ont pas le même numéro. Dans ce cas, le numéro de téléphone doit être exact à 100% pour être utilisé comme définition de la correspondance.

Quelques données essentielles sur les fonctions de réglage dans le DME

DataMatch Enterprise est un outil de comparaison de données en libre-service, automatisé et puissant, qui permet aux utilisateurs de créer des paramètres de comparaison personnalisés en fonction d’une série de paramètres, notamment l’utilisation de caractères alphanumériques, de chaînes de caractères, de chiffres, d’espaces blancs, de délimiteurs et bien d’autres encore.

Voici quelques fonctions clés que l’outil utilise pour fournir des correspondances très précises.


Type de correspondance :
L’outil permet cinq types de correspondance de données :


  • Exacte :
    Ne correspondra que si les champs sont identiques

  • Phonétique :
    Les champs s’accordent lorsqu’ils se ressemblent (Bear et Bare).

  • Numérique :
    Compare des valeurs numériques

  • Flou :
    Cela correspondra aux champs basés sur la coïncidence des caractères (john et jhon) et renverra un score basé sur cette coïncidence et l’ordre des caractères.
  • Niveau: Ceci définira le seuil du score du match. (Par exemple, if vous définissez les noms de famille à 70%, alors tous les enregistrements de ce groupe doivent correspondre à 70% ou plus).

IDs de groupe : Cela permet aux utilisateurs de créer des champs pour la recherche croisée entre deux ou plusieurs colonnes. Par exemple, vous souhaitez faire correspondre la colonne des prénoms de l’enregistrement A à la colonne des noms de l’enregistrement B ou à l’enregistrement A lui-même.


Niveau du groupe :
Score de correspondance calculé pour un ID de groupe basé sur le niveau de champ et le poids.


Éditeur de filtres :
Filtrez les colonnes en utilisant
ET/OU
et déterminez les valeurs que vous souhaitez conserver dans une colonne. Par exemple, dans le scénario ci-dessus, vous pourriez vouloir conserver les numéros qui ne commencent que par l’indicatif régional d’un pays.

Fusionner les correspondances : Que faire si vous avez deux numéros pour une colonne ? Garderiez-vous l’un d’eux et supprimeriez-vous l’autre ? À moins que vous ne sachiez exactement laquelle des deux est la bonne version, vous pouvez les fusionner, en les séparant par un délimiteur. De cette façon, vous conservez les deux résultats que vous pourrez consulter ultérieurement.

Enfin, DME vous permet d’exporter les enregistrements dans plus d’une douzaine de formats. Vous pouvez également choisir de créer un enregistrement doré après le rapprochement, qui contiendra la version consolidée la plus précise de vos données.

Conclusion

Traditionnellement, une activité de rapprochement de données a trois objectifs.

  1. Obtenez les colonnes de données qui correspondent
  2. Découvrez les colonnes qui ne correspondent pas
  3. Obtenez une sortie qui contient des informations vraies et précises

Aujourd’hui, ces objectifs sont élargis par le temps et les taux de correspondance. Les entreprises veulent un taux de correspondance précis à 100 %, dans le délai le plus court possible et avec une utilisation minimale des ressources. Il s’agit essentiellement d’une demande d’automatisation. Les solutions de nouvelle génération répondent à cette demande en permettant aux utilisateurs d’affiner et d’optimiser constamment leurs données en les nettoyant, en les rapprochant et en les ajustant pour obtenir des résultats plus ciblés et plus précis.

DME vous aide à atteindre tous ces objectifs.

  1. Nous sommes les mieux classés en termes de précision du taux de correspondance, devançant SAS et IBM.
  2. Il suffit de 45 minutes pour comparer des millions de lignes de données.
  3. Notre outil est conçu pour que les utilisateurs professionnels puissent nettoyer, rapprocher et transformer les données.
  4. L’utilisateur peut définir des règles, créer des exceptions, optimiser les configurations de correspondance en fonction de ses besoins en matière de données.
  5. Il ne nécessite aucune connaissance en langage de programmation et constitue un outil en libre-service pour toute personne souhaitant travailler sur la qualité et le rapprochement des données.

Vous voulez savoir comment nous pouvons vous aider à réaliser un exercice personnalisé de comparaison de données ? Téléchargez la version d’essai gratuite et faites l’expérience de la comparaison des données d’une manière moderne, meilleure et plus puissante.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.