Blog

Logiciel de correspondance des noms ou algorithmes : Quelle est la meilleure solution pour votre entreprise ?

Catherine épelée comme Cathy, Kath ou Katharine; John entré dans votre système comme Jon, Jonathan ou Jonny; ou une Margaret qui se fait appeler Peggy lorsqu’elle achète en ligne — les variations de nom causent des problèmes importants pour maintenir un profil client ou fournisseur précis pour les organisations. Dans cet article, nous allons voir comment les logiciels et techniques de concordance de noms aident les entreprises.

Bien qu’il s’agisse apparemment d’un problème mineur, les variations de nom entraînent la création d’enregistrements en double dans des sources de données disparates. Vos représentants passent beaucoup trop de temps à essayer de… consolider les informations sur les clients et vérifier si deux clients sont en fait la même personne, et vos analyses risquent de vous montrer une vision erronée de vos clients, ce qui affecte les décisions commerciales.

Voici un petit exemple de ce qui se passe lorsqu’un nom ne correspond pas.

Supposons que vous souhaitiez envoyer un courrier électronique promotionnel à vos clients. Vous connectez votre base de données à votre plateforme de messagerie automatisée et vous envoyez un e-mail. William Rogers est l’un de vos clients, mais lorsque William reçoit l’e-mail, il est appelé « Willy Rog ». Vous venez de perdre la confiance, et donc la clientèle, d’un client.

Comment éviter qu’un tel accident ne se produise ? Quelles mesures pratiques pouvez-vous prendre pour vous assurer que votre base de données contient les bonnes informations ?

Nous allons répondre à toutes ces questions en couvrant :

  • Qu’est-ce que la correspondance des noms ?
  • Pourquoi les problèmes de concordance des noms se produisent-ils ?
  • 4 Approches générales pour résoudre les problèmes de correspondance de noms
  • Défis liés aux approches existantes
  • Comment le logiciel de correspondance des noms peut vous aider
  • Étude de cas de Zurich Insurance

Allons-y.

Qu’est-ce que la correspondance des noms ?

En termes simples, la concordance des noms consiste simplement à donner un sens à plusieurs variantes d’un nom et à les faire correspondre à un nom principal. Donc, en reprenant l’exemple ci-dessus : William peut s’écrire Will, Willy, Wils, et ainsi de suite. Le but de la comparaison de noms est d’identifier ces variations et de les associer au nom correct, c’est-à-dire William.

Ça semble simple, non ?

Pas tout à fait.

Dans les bases de données, les noms servent également d’identifiants uniques, ce qui signifie que votre base de données peut s’appuyer sur un nom pour rechercher un enregistrement. Plus important encore, lorsque vous utilisez des outils d’automatisation du marketing, vous vous appuyez sur le jeton [name] pour personnaliser l’e-mail, ce qui ne laisse aucune place à l’erreur. Les conséquences négatives d’une mauvaise orthographe peuvent coûter des centaines de milliers de dollars aux entreprises.

Alors, que pouvez-vous faire ? Les experts en données mettent en œuvre des algorithmes ou des méthodes pour supprimer les doublons ou les chaînes de noms inexactes – pour ne garder qu’une seule vraie source. Ainsi, dans le cas de William, toutes les autres variations sont supprimées, ce qui vous donne un seul nom principal correct, tout en stockant les autres variations dans un champ séparé pour référence, si nécessaire.

Pourquoi les problèmes de concordance des noms se produisent-ils ?

Les variations de noms sont dues à un certain nombre de raisons, la première étant le comportement ou l’intention de l’utilisateur. Certaines personnes peuvent choisir de donner leur surnom (un problème courant dans les entreprises en ligne qui demandent aux utilisateurs de remplir des formulaires). Certains choisissent de donner leurs initiales, d’autres tapent simplement un nom au hasard.

Quels que soient la taille, le type ou le secteur d’activité de votre entreprise, le coût des données fausses ou inexactes est toujours élevé. Mais si votre organisation fait partie des secteurs de l’application de la loi, de la sécurité intérieure, de la conformité financière ou d’autres secteurs similaires où les données sont sensibles, vous ne pouvez pas risquer le problème de la variation du nom. Pour les organisations de ces secteurs, les enjeux des variations de la correspondance des noms sont élevés.

TransUnionL’agence d’évaluation du crédit à la consommation a perdu une action collective massive pour avoir signalé à tort des clients comme des criminels. De même, PayPal, une société de transactions financières en ligne très populaire
a été condamné à une amende pour ne pas avoir empêché les transactions
vers l’Iran, Cuba et le Soudan parce que leur filtre ne fonctionnait pas correctement.

La variabilité et la complexité croissantes des types de données, des formats de données et des sources de données (mobiles, sociales, journaux des appareils, etc.) ont encore compliqué les problèmes de concordance des noms.

Les problèmes les plus courants liés à la correspondance des noms sont les suivants :

Erreurs typographiques : L’omission du « a » dans Angela pourrait changer le nom en Angel. Le problème des fautes de frappe ? Parfois, nous ne sommes même pas conscients d’avoir fait une faute de frappe.

La phonétique : C’est Carl ou Karl ? Gris ou gris ? Ces noms se ressemblent mais s’écrivent différemment. Si une personne saisit le nom au cours d’un appel (un agent du service clientèle, par exemple), le fait de négliger de confirmer l’orthographe produit une erreur qui passe inaperçue.

Surnoms : Il s’agit d’un problème courant. Parfois, les surnoms remplacent entièrement le nom original. Ainsi, quelqu’un peut avoir l’habitude de taper Mike au lieu de Michael ou Liz au lieu d’Elizabeth.

Initiales : Parfois, pour les noms très longs, les gens ont tendance à ne noter que les initiales. Mary Jane Thomas pourrait être écrite comme M.J Thomas. Dans ce cas, il est également possible que M.J. Thomas soit pris pour un homme !

Noms étrangers : C’est très délicat ! Lorsqu’il s’agit de noms étrangers, les risques de fautes d’orthographe sont élevés. Les noms asiatiques, en particulier les noms vietnamiens, coréens et chinois sont difficiles à aborder. Par exemple, « Nguyen thi… » est un prénom vietnamien courant pour les femmes. Certains l’écrivent comme Nugyen, d’autres comme Nguyen – le premier étant une mauvaise orthographe. Il en va de même pour les noms asiatiques qui ont été américanisés, par exemple, Farah est écrit et prononcé comme Farrah.

En raison du grand nombre de sources, de processus et de personnes impliqués dans l’enregistrement des noms, il est difficile de garantir une exactitude à 100 %. Grâce à la technologie moderne, il est toutefois possible de réduire considérablement, voire de supprimer complètement, les données inexactes.

Le piège ?

Vous devrez utiliser différentes méthodes de correspondance des noms pour résoudre différents problèmes de correspondance des noms. Dans un cas comme dans l’autre, il faut toutefois noter qu’il n’existe pas de solution unique pour résoudre ces problèmes. Différentes approches ont été développées pour répondre à différents défis, mais il n’existe pas de solution unique.

La plupart des cadres décrits sont conçus pour des défis spécifiques et nécessitent une personnalisation importante avant que vous puissiez les développer et les déployer dans un environnement d’entreprise.

4 Méthodes générales pour résoudre les problèmes de concordance des noms

Le défi que représente la correspondance des chaînes de caractères préoccupe les entreprises et les organisations depuis des décennies. Des entreprises comme Google et Amazon utilisent plusieurs méthodes pour surmonter ce défi, tandis que les entreprises moins capitalisées sont toujours aux prises avec le coût de la maintenance d’une grande base de données.

Voici quelques-unes des approches les plus courantes en matière de correspondance de noms utilisées dans le secteur.

La méthode de la clé commune

La phonétique étant un défi commun aux noms, elle peut être résolue en utilisant la méthode des clés communes. Dans cette méthode, les noms sont représentés par une clé ou un code basé sur leur prononciation anglaise.

L’algorithme phonétique Soundex est utilisé pour indexer les noms par son. Ainsi, par exemple, SMITH et SCHMIDT ont pour clé S530. Cette méthode peut sembler très simple pour résoudre les problèmes de nom, mais elle est très limitée.

Il ne fonctionne que sur basé sur le latin les langues. Cela signifie qu’il déchiffrera les noms de langues étrangères selon la phonétique anglaise. Double Metaphone, un autre algorithme phonétique, utilise un code primaire et un code secondaire pour chaque nom, ce qui lui permet de prendre en compte d’autres langues telles que les langues slaves, germaniques, espagnoles, françaises, grecques, italiennes et même chinoises !

Double Metaphone codera donc Smith avec un code primaire de SM0 et un code secondaire de XMT. Lorsqu’il lit Schmidt, il utilise le code secondaire de Smith, qui est XMT comme code primaire et un code secondaire de SMT. Vous avez remarqué le partage de XMT ? Cela indique une similitude entre des noms à consonance similaire.

Bien qu’il s’agisse d’une méthode populaire, le plus grand défi des algorithmes Common Key est la précision. Il s’agit le plus souvent de conjectures (comme dans le cas de Smith vs Schmidt), et bien que des algorithmes de plus en plus perfectionnés soient définis pour gérer les différences phonétiques, il y aura toujours des difficultés lorsqu’il s’agira de noms non anglais. Dans le cas des noms coréens, par exemple, Soundex et Metaphone convertissent les noms en caractères latins puis créent des clés pour ces noms. Ce processus ajoute à la complexité de la tâche et augmente les risques d’erreur au lieu de les réduire.

Pour : Simple, rapide et grande valeur de rappel
Contre : Ne fonctionne pas aussi bien avec les noms non latins. Peut faire des compromis sur la précision.

Méthode de recherche dans une liste ou un dictionnaire

La méthode est simple : il s’agit de répertorier toutes les variantes possibles d’un nom et de les faire correspondre à la source principale.

Cette méthode fonctionne mieux pour les données multiculturelles, car il existe différentes dérivations d’un nom – dont la cause peut être des préférences culturelles, l’individualité, ou simplement une erreur humaine qui n’a pas été corrigée.

Prenez par exemple le nom Aiden. Il s’écrit aussi Aydin. Un autre exemple courant est Ayesha également écrit comme Aisha ou Aiesha.

Bien que la méthode de la liste soit simple et facile à maintenir, elle est gourmande en ressources et vacille lorsqu’elle est confrontée à d’autres variations comme les initiales, les surnoms, les noms de famille, etc. Un autre inconvénient est qu’une variation de nom ne figurant pas dans la liste ne sera pas considérée comme une correspondance, ce qui rend la méthode de la liste inefficace pour des secteurs tels que la sécurité intérieure, la lutte contre le blanchiment d’argent, etc.

Pour : Facile à utiliser
Inconvénients : Consomme beaucoup de ressources ; a des problèmes de rappel car les nouvelles variantes peuvent ne pas être capturées ; est lent car il parcourt une grande base de données pour retourner une correspondance.

Méthode d’édition de la distance

La méthode de la distance d’édition décompose les orthographes en caractères et leur attribue un poids. « Carl » et « Karl » auront une distance d’édition de 1 puisque le C se transforme en K. Dans ce cas, le C est « transposé » pour le K. Le terme « édition » dans cette méthode fait référence aux actions d’insertion, de suppression et de transposition qui seront nécessaires pour faire correspondre les chaînes de caractères.

Il fait appel à deux facteurs clés :

1). Le nombre d’orthographes similaires dans la chaîne

2). Le nombre d’opérations de modification nécessaires pour transformer une variante en une autre.

L’inconvénient de cette méthode est le même que pour les autres méthodes – la précision est limitée uniquement pour les noms anglais. Pour les noms non anglophones, un processus de traduction a lieu, à la suite duquel les modifications sont effectuées. Un nom vietnamien, « Hang », peut être traduit par « Heng », qui est un nom de famille chinois.. Les deux ont la même orthographe, à l’exception des voyelles, et les deux ont même le même son, provenant de la même culture orientale.

Il est donc évident que non seulement la méthode de la distance d’édition ne tient pas compte des nuances linguistiquesmais aussi qu’elle entraîne des risques d’erreurs importantes lors du processus de traduction de langues non latines vers l’anglais.

Pour : Facile à exécuter
Contre : Ne fonctionne pas efficacement pour les langues non latines.

Méthode basée sur des règles

Il s’agit d’une méthode intéressante qui s’appuie sur les connaissances humaines. Cette méthode demande beaucoup de travail, mais elle intègre des connaissances réelles sur les noms de différentes cultures et ethnies. L’avantage de cette méthode est qu’il n’y a pas de traduction d’une langue étrangère en langue anglaise et que les nuances culturelles d’une langue restent intactes.

Les trois inconvénients de cette méthode ?

  1. Elle repose sur l’étendue des connaissances humaines.
  2. Il faut beaucoup de travail pour alimenter de multiples variations de noms sur la seule base des connaissances humaines.
  3. Il est lent car il doit passer en revue des millions de noms pour trouver une bonne correspondance.

Pour : Prise en charge des noms en langue étrangère
Contre : Repose sur les connaissances humaines

Utilisation du modèle hybride

Les modèles hybrides font appel à deux ou plusieurs méthodes pour obtenir le meilleur rappel et la meilleure précision.. Elle peut utiliser la capacité de rappel élevée de la méthode des clés communes avec la connaissance humaine des noms de la méthode basée sur les règles pour atteindre ces objectifs.

Avec un modèle hybride, les règles sont générées à partir de données réelles, ce qui signifie qu’il n’est pas nécessaire de s’appuyer entièrement sur les connaissances humaines, ni sur une traduction. En outre, cette méthode fonctionne parfaitement pour la correspondance de noms entre langues, où les utilisateurs peuvent simplement taper un nom en anglais et obtenir des résultats précis.

En conséquence, un modèle hybride est rapide à exécuter, fournit un rappel précis et résout également le problème du passage du non-latin au latin.

Il est toutefois important de mentionner ici qu’il n’est pas facile de réussir à développer un modèle hybride pour répondre à vos besoins en matière de données. Vous devez d’abord identifier le problème que vous rencontrez, le type d’approche qui fonctionnera avec vos données spécifiques et le haut niveau de personnalisation que vous devrez effectuer pour que le modèle fonctionne sur vos données. En outre, vous devrez également passer des mois à tester, enregistrer, mettre à jour et examiner l’efficacité des différentes méthodes. Il s’agit d’une entreprise coûteuse qui ne vous aidera pas à surmonter vos difficultés actuelles en matière de données.

Défis liés aux approches existantes

Si votre organisation ne traite que quelques centaines de noms dans une feuille Excel, vous pouvez corriger manuellement les problèmes de noms ou utiliser l’un des algorithmes décrits ci-dessus. Il va de soi que la mise en œuvre de l’une ou l’autre de ces approches vous coûtera des centaines de milliers de dollars, des mois, voire des années, de tests et de mise en œuvre, ainsi que l’embauche d’une équipe de développement, ce qui n’est pas sans poser de problèmes.

Il existe également des défis supplémentaires qui peuvent être difficiles à surmonter avec les approches existantes :

1. Le problème de la gestion d’une variété d’écritures : La plupart des approches concernent principalement les langues latines. Avec des scripts multiculturels ou multilingues, ces approches sont très peu performantes. Ils ne peuvent traiter qu’un seul scénario à la fois, ce qui ne permet pas vraiment de trier plusieurs scénarios simultanément.

2. Problèmes de précision et de rappel : La méthode de la clé commune peut avoir un rappel élevé, mais une précision médiocre. Parce qu’il ne fait que faire correspondre des chaînes de caractères basées sur des sons ou des touches, il échoue lorsqu’il s’agit de données à haute variance. La méthode basée sur des règles peut offrir de la précision, mais comme elle doit parcourir manuellement les données, son processus de rappel est très lent.

3. Ressources informatiques élevées : Le tri d’une base de données d’entreprise à grande échelle nécessite des ressources informatiques élevées qui offrent une durée d’exécution tout aussi élevée. Vous devriez être en mesure de vous rappeler un nom ou une correspondance en quelques secondes seulement après une recherche. Ce besoin de chargement instantané de l’information nécessite des systèmes et des ressources coûteux, sans compter qu’ils doivent être entretenus et mis à jour chaque année.

4. L’absence d’améliorations automatisées : Au fil du temps, toutes ces approches doivent être mises à jour manuellement pour apporter des améliorations. Non seulement cela prend du temps et est complexe, mais cela augmente également le défi de la précision et de l’exactitude.

5. Embauche du bon type de talent : N’importe qui peut apprendre une langue et mettre en place un programme pour vous. Mais il vous faut plus qu’un simple développeur Python pour mener à bien cette tâche. Vous avez besoin d’une équipe qui comprend comment utiliser un certain modèle pour résoudre un problème spécifique – et cette équipe n’est pas bon marché.

Logiciel de correspondance de noms : L’approche sans code

Bien que ces algorithmes puissent « sembler » simples, leur exécution ne l’est guère.

Les contraintes, la nécessité d’une équipe et de ressources informatiques et, surtout, le défi de mettre en œuvre une approche qui fonctionne sont difficiles, voire impossibles à surmonter. Elle coûte des centaines de milliers de dollars, pèse lourdement sur les processus d’entreprise et ne parvient toujours pas à saisir l’augmentation exponentielle des différents types, formats et sources de données.

C’est là que vous avez besoin d’un logiciel de correspondance des noms – une solution sans code, sans tracas, et qui fonctionne exceptionnellement bien avec les besoins croissants en matière de données.

Les solutions logicielles modernes de correspondance de noms font plus que de la simple correspondance de noms. Ils nettoient les données, éliminent les problèmes de duplication, suppriment les redondances en mettant en œuvre la normalisation, et aident votre organisation à miser sur des données fiables et précises.

DataMatch Enterprise est l’une de ces solutions uniques qui va au-delà de la simple correspondance de noms. Utilisé par plus de 4 000 organisations dans 40 pays et reconnu comme la première solution de rapprochement et de nettoyage des données, il s’agit d’une solution qui résout les problèmes de données modernes. Le système met en œuvre un modèle hybride pour identifier et résoudre les variations de plusieurs points de données.

En outre, elle offre une solution API qui intègre n’importe quelle source de données à la plateforme DataMatch Enterprise, où vous pouvez facilement profiler, nettoyer, faire correspondre et dédupliquer.

Zurich Insurance – Étude de cas

Zurich Insurance, l’une des plus grandes compagnies d’assurance suisses, a pu utiliser DataMatch Enterprise pour examiner les informations et s’assurer que les paiements étaient traités correctement et sans erreur humaine.

Le système actuel ne dispose pas d’une fonction d’édition directe permettant de pré-remplir les noms des bénéficiaires, de sorte que les personnes chargées de la gestion et de la saisie des informations dans la base de données peuvent simplement saisir n’importe quel type d’information. Si une requête était exécutée sur l’entrepôt de données principal, une longue liste d’informations en double apparaissait.

Le résultat ? Les noms des fournisseurs n’étaient pas regroupés de manière appropriée, ce qui causait d’énormes maux de tête et une inefficacité opérationnelle.

En utilisant DataMatch Enterprise, l’entreprise a pu :

  1. Créer des rapports précis et confidentiels pour le secteur
  2. Répondre aux besoins de nettoyage des données et de rapprochement flou.
  3. Traiter les paiements sans erreur humaine

Conclusion – Votre organisation a besoin de données auxquelles vous pouvez faire confiance

Les données brutes sont toujours sujettes à des erreurs. Quels que soient les systèmes frontaux que vous mettez en place, lorsque c’est un être humain qui remplit ou donne des informations, il y aura toujours des problèmes de variations. Si ces questions ne sont pas résolues, cela peut se transformer en une erreur coûteuse.

Les organisations peuvent être poursuivies dans le cadre de recours collectifs, perdre des clients, recevoir de mauvaises critiques en ligne ou même perdre de la concurrence en cas de données erronées.

Un investissement dans un logiciel de concordance des noms et des solutions de nettoyage des données est donc une nécessité et non un luxe.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.