{"id":62268,"date":"2021-08-20T23:25:00","date_gmt":"2021-08-21T03:25:00","guid":{"rendered":"https:\/\/dataladder.com\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/"},"modified":"2022-02-16T12:50:51","modified_gmt":"2022-02-16T12:50:51","slug":"correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees","status":"publish","type":"post","link":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/","title":{"rendered":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es"},"content":{"rendered":"\n<p>Dans ce blog, nous allons examiner en d\u00e9tail la correspondance floue, l&rsquo;approche de r\u00e9f\u00e9rence pour la d\u00e9duplication des donn\u00e9es et le couplage des enregistrements. Nous allons couvrir :<\/p>\n\n\n\n<ul><li>Qu&rsquo;est-ce que l&rsquo;appariement flou ?<\/li><li>Pourquoi les entreprises ont-elles besoin de la correspondance floue ?<\/li><li>Exemple d&rsquo;un sc\u00e9nario de correspondance floue dans le monde r\u00e9el<\/li><li>Techniques d&rsquo;appariement floues<\/li><li>Avantages et inconv\u00e9nients de la correspondance floue<\/li><li>Comment r\u00e9duire au minimum les faux positifs et n\u00e9gatifs ?<\/li><li>Scripts de mise en correspondance floue ou logiciel de mise en correspondance floue : Lequel est le meilleur ?<\/li><li>Comment ex\u00e9cuter la correspondance floue dans DataMatch Enterprise<\/li><\/ul>\n\n\n\n<h2 id=\"qu-est-ce-que-l-appariement-flou\"><strong>Qu&rsquo;est-ce que l&rsquo;appariement flou ?<\/strong><\/h2>\n\n\n\n<p>Plut\u00f4t que de marquer les enregistrements comme \u00ab\u00a0correspondants\u00a0\u00bb ou \u00ab\u00a0non correspondants\u00a0\u00bb, la correspondance floue identifie la probabilit\u00e9 que deux enregistrements correspondent vraiment, selon qu&rsquo;ils sont en accord ou en d\u00e9saccord sur les diff\u00e9rents identifiants.<\/p>\n\n\n\n<p>Les identifiants ou param\u00e8tres que vous choisissez ici et la pond\u00e9ration que vous leur attribuez constituent la base de la correspondance floue. Si les param\u00e8tres sont trop larges, vous trouverez plus de correspondances, certes, mais vous augmenterez aussi invariablement les risques de \u00ab\u00a0faux positifs\u00a0\u00bb. Il s&rsquo;agit de paires identifi\u00e9es par votre algorithme ou le <a href=\"https:\/\/dataladder.com\/fr\/fuzzy-matching-software-outil-de-recherche-de-noms-flous-classe-n1\/\" target=\"_blank\" rel=\"noreferrer noopener\">logiciel de correspondance floue<\/a> de votre choix comme une correspondance, mais apr\u00e8s un examen manuel, vous constaterez que votre approche a identifi\u00e9 un faux positif.<\/p>\n\n\n\n<p>Consid\u00e9rons les cha\u00eenes de caract\u00e8res \u00ab\u00a0<strong>Kent<\/strong>\u00a0\u00bb et \u00ab\u00a0<strong>10th<\/strong>\u00ab\u00a0. Bien qu&rsquo;il n&rsquo;y ait manifestement pas de correspondance ici, les algorithmes de correspondance floue les plus r\u00e9pandus consid\u00e8rent que ces deux cha\u00eenes de caract\u00e8res sont similaires \u00e0 pr\u00e8s de 50 %, sur la base du nombre de caract\u00e8res et de la correspondance phon\u00e9tique. <a href=\"https:\/\/asecuritysite.com\/forensics\/simstring\" target=\"_blank\" rel=\"noreferrer noopener\">V\u00e9rifiez par vous-m\u00eame<\/a>.<\/p>\n\n\n\n<p>Les faux positifs sont l&rsquo;un des principaux probl\u00e8mes de la correspondance floue. Plus le syst\u00e8me que vous utilisez est efficace, moins il y a de faux positifs. Un syst\u00e8me efficace permettra d&rsquo;identifier :<\/p>\n\n\n\n<ul><li>Acronymes<\/li><li>inversion du nom<\/li><li>variations de noms<\/li><li>orthographes phon\u00e9tiques<\/li><li>fautes d&rsquo;orthographe d\u00e9lib\u00e9r\u00e9es<\/li><li>erreurs d&rsquo;orthographe par inadvertance<\/li><li>les abr\u00e9viations, par exemple \u00ab\u00a0Ltd\u00a0\u00bb au lieu de \u00ab\u00a0Limited\u00a0\u00bb.<\/li><li>insertion\/suppression de la ponctuation, des espaces, des caract\u00e8res sp\u00e9ciaux<\/li><li>orthographe diff\u00e9rente des noms, par exemple \u00ab\u00a0Elisabeth\u00a0\u00bb ou \u00ab\u00a0Elizabeth\u00a0\u00bb, \u00ab\u00a0Jon\u00a0\u00bb au lieu de \u00ab\u00a0John\u00a0\u00bb.<\/li><li>les noms raccourcis, par exemple \u00ab\u00a0Elizabeth\u00a0\u00bb correspond \u00e0 \u00ab\u00a0Betty\u00a0\u00bb, \u00ab\u00a0Beth\u00a0\u00bb, \u00ab\u00a0Elisa\u00a0\u00bb, \u00ab\u00a0Elsa\u00a0\u00bb, \u00ab\u00a0Beth\u00a0\u00bb, etc.<\/li><\/ul>\n\n\n\n<p>Et bien d&rsquo;autres variations.<\/p>\n\n\n\n<h2 id=\"pourquoi-les-entreprises-ont-elles-besoin-de-la-correspondance-floue\"><strong>Pourquoi les entreprises ont-elles besoin de la correspondance floue ?<\/strong><\/h2>\n\n\n\n<p>Des \u00e9tudes r\u00e9v\u00e8lent que 94 % des entreprises admettent avoir des donn\u00e9es en double, et la majorit\u00e9 de ces doublons ne sont pas des correspondances exactes et passent donc g\u00e9n\u00e9ralement inaper\u00e7us. Le logiciel de correspondance floue vous aide \u00e0 \u00e9tablir ces liens automatiquement \u00e0 l&rsquo;aide d&rsquo;une logique de correspondance propri\u00e9taire sophistiqu\u00e9e, sans tenir compte des fautes d&rsquo;orthographe, des donn\u00e9es non normalis\u00e9es ou des informations incompl\u00e8tes.<\/p>\n\n\n\n<p>Mais il ne s&rsquo;agit pas seulement de d\u00e9duplication. D&rsquo;un point de vue strat\u00e9gique, la correspondance floue entre en jeu lorsque vous effectuez un couplage d&rsquo;enregistrements ou une r\u00e9solution d&rsquo;entit\u00e9s. Nous l&rsquo;avons \u00e9galement abord\u00e9 bri\u00e8vement dans la section pr\u00e9c\u00e9dente ; l&rsquo;approche de la correspondance floue est inestimable pour cr\u00e9er une source unique de v\u00e9rit\u00e9 pour l&rsquo;analyse d&rsquo;entreprise ou pour jeter les bases de la gestion des donn\u00e9es de r\u00e9f\u00e9rence (MDM), en aidant les organisations \u00e0 int\u00e9grer des donn\u00e9es provenant de dizaines de sources diff\u00e9rentes \u00e0 travers l&rsquo;entreprise, tout en garantissant l&rsquo;exactitude et en minimisant la r\u00e9vision manuelle. D\u00e9couvrez comment un important prestataire de soins de sant\u00e9 a pu \u00e9conomiser des centaines d&rsquo;heures de travail par an.<\/p>\n\n\n\n<p>Voici quelques exemples de l&rsquo;utilisation de la correspondance floue pour am\u00e9liorer les r\u00e9sultats :<\/p>\n\n\n\n<ul><li>Obtenir une vision unique du client<\/li><li>Travaillez avec des donn\u00e9es propres auxquelles vous pouvez faire confiance<\/li><li>Pr\u00e9parer les donn\u00e9es pour la Business Intelligence<\/li><li>Am\u00e9liorer la pr\u00e9cision de vos donn\u00e9es pour une meilleure efficacit\u00e9 op\u00e9rationnelle<\/li><li>Enrichir les donn\u00e9es pour approfondir les connaissances<\/li><li>Assurer une meilleure conformit\u00e9<\/li><li>Affiner la segmentation de la client\u00e8le<\/li><li>Am\u00e9liorer la pr\u00e9vention des fraudes<\/li><\/ul>\n\n\n\n<p>En savoir plus sur les <a href=\"https:\/\/dataladder.com\/fr\/8-avantages-du-couplage-de-donnees-qui-peuvent-vous-aider-a-developper-votre-entreprise\/\" target=\"_blank\" rel=\"noreferrer noopener\">avantages de la correspondance floue<\/a>.<\/p>\n\n\n\n<h3 id=\"exemple-d-un-scenario-de-correspondance-floue-dans-le-monde-reel\"><strong>Exemple d&rsquo;un sc\u00e9nario de correspondance floue dans le monde r\u00e9el<\/strong><\/h3>\n\n\n\n<p>L&rsquo;exemple suivant montre comment les techniques de couplage d&rsquo;enregistrements peuvent \u00eatre utilis\u00e9es pour d\u00e9tecter la fraude, le gaspillage ou l&rsquo;abus des programmes du gouvernement f\u00e9d\u00e9ral. Ici, deux bases de donn\u00e9es ont \u00e9t\u00e9 fusionn\u00e9es pour obtenir des informations qui n&rsquo;\u00e9taient pas disponibles auparavant dans une seule base de donn\u00e9es.<\/p>\n\n\n\n<p>Une base de donn\u00e9es constitu\u00e9e d&rsquo;enregistrements sur 40 000 pilotes d&rsquo;avion titulaires d&rsquo;une licence de l&rsquo;Administration f\u00e9d\u00e9rale de l&rsquo;aviation (FAA) des \u00c9tats-Unis et r\u00e9sidant en Californie du Nord a \u00e9t\u00e9 mise en correspondance avec une base de donn\u00e9es constitu\u00e9e d&rsquo;individus recevant des paiements d&rsquo;invalidit\u00e9 de l&rsquo;Administration de la s\u00e9curit\u00e9 sociale. Quarante pilotes dont les dossiers figuraient dans les deux bases de donn\u00e9es ont \u00e9t\u00e9 arr\u00eat\u00e9s.<\/p>\n\n\n\n<p>Un procureur du bureau du procureur des \u00c9tats-Unis \u00e0 Fresno, en Californie, a d\u00e9clar\u00e9, selon un rapport de l&rsquo;AP :<\/p>\n\n\n\n<p>\u00ab\u00a0Il y a probablement eu un acte criminel r\u00e9pr\u00e9hensible.\u00a0\u00bb Soit les pilotes mentaient \u00e0 la FAA, soit ils recevaient ind\u00fbment des avantages. Les pilotes pr\u00e9tendaient \u00eatre m\u00e9dicalement aptes \u00e0 piloter des avions. Cependant, il se peut qu&rsquo;ils aient vol\u00e9 avec des maladies d\u00e9bilitantes qui auraient d\u00fb les retenir au sol, allant de la schizophr\u00e9nie et des troubles bipolaires \u00e0 la toxicomanie et \u00e0 l&rsquo;alcoolisme, en passant par des probl\u00e8mes cardiaques.\u00a0\u00bb<\/p>\n\n\n\n<p>Au moins douze de ces personnes \u00ab\u00a0avaient des licences de transport commercial ou a\u00e9rien\u00a0\u00bb, indique le rapport. La FAA a r\u00e9voqu\u00e9 14 licences de pilotes. Il s&rsquo;est av\u00e9r\u00e9 que les autres pilotes mentaient sur leurs maladies afin de percevoir des prestations de s\u00e9curit\u00e9 sociale.<\/p>\n\n\n\n<p>La qualit\u00e9 de la mise en relation des fichiers d\u00e9pendait fortement de la qualit\u00e9 des noms et adresses des pilotes brevet\u00e9s dans les deux fichiers mis en relation. La d\u00e9tection de la fraude d\u00e9pendait \u00e9galement de l&rsquo;exhaustivit\u00e9 et de l&rsquo;exactitude des informations contenues dans une base de donn\u00e9es particuli\u00e8re de la Social Security Administration.<\/p>\n\n\n\n<p>D\u00e9couvrez comment les entreprises de votre secteur utilisent la correspondance floue aujourd&rsquo;hui.<\/p>\n\n\n\n<h2 id=\"techniques-d-appariement-floues\"><strong>Techniques d&rsquo;appariement floues<\/strong><\/h2>\n\n\n\n<p>Vous savez maintenant ce qu&rsquo;est le fuzzy matching et les diff\u00e9rentes fa\u00e7ons de l&rsquo;utiliser pour d\u00e9velopper votre activit\u00e9. La question est la suivante : comment envisagez-vous de mettre en \u0153uvre des processus de correspondance floue dans votre organisation ?<\/p>\n\n\n\n<p>Voici une liste des diff\u00e9rentes techniques de correspondance floue utilis\u00e9es aujourd&rsquo;hui :<\/p>\n\n\n\n<ul><li>Distance de Levenshtein (ou distance d&rsquo;\u00e9dition)<\/li><li>Distance Damerau-Levenshtein<\/li><li>Distance entre Jaro-Winkler<\/li><li>Distance du clavier<\/li><li>Distance de Kullback-Leibler<\/li><li>Indice Jaccard<\/li><li>M\u00e9taphone 3<\/li><li>Variante du nom<\/li><li>Alignement des syllabes<\/li><li>Acronyme<\/li><\/ul>\n\n\n\n<p>Obtenez plus d&rsquo;informations sur les <a href=\"https:\/\/www.rosette.com\/blog\/overview-fuzzy-name-matching-techniques\/\" target=\"_blank\" rel=\"noreferrer noopener\">algorithmes de correspondance floue<\/a>.<\/p>\n\n\n\n<h2 id=\"avantages-et-inconvenients-de-la-correspondance-floue\"><strong>Avantages et inconv\u00e9nients de la correspondance floue<\/strong><\/h2>\n\n\n\n<p>Puisque la correspondance floue est bas\u00e9e sur une approche probabiliste pour identifier les correspondances, elle peut offrir une large gamme d&rsquo;avantages tels que :<\/p>\n\n\n\n<p>&#8211; <strong>Une meilleure pr\u00e9cision de la correspondance<\/strong><strong>:<\/strong> la correspondance floue s&rsquo;av\u00e8re \u00eatre une m\u00e9thode bien plus pr\u00e9cise pour trouver des correspondances entre deux ou plusieurs ensembles de donn\u00e9es. Contrairement \u00e0 la correspondance d\u00e9terministe qui d\u00e9termine les correspondances sur une base de 0 ou 1, la correspondance floue peut d\u00e9tecter les variations qui se situent entre 0 et 1 sur un seuil de correspondance donn\u00e9.<\/p>\n\n\n\n<p>&#8211;<strong>Fournit des solutions \u00e0 des donn\u00e9es complexes :<\/strong>la logique floue permet \u00e9galement aux utilisateurs de trouver des correspondances en reliant des enregistrements constitu\u00e9s de l\u00e9g\u00e8res variations sous forme d&rsquo;erreurs d&rsquo;orthographe, de casse et de formatage, de valeurs nulles, etc., ce qui la rend mieux adapt\u00e9e aux applications du monde r\u00e9el o\u00f9 des fautes de frappe, des erreurs syst\u00e8me et d&rsquo;autres erreurs de donn\u00e9es peuvent se produire. Cela inclut \u00e9galement les donn\u00e9es dynamiques qui deviennent obsol\u00e8tes ou doivent \u00eatre mises \u00e0 jour en permanence, comme le titre du poste et l&rsquo;adresse \u00e9lectronique.<\/p>\n\n\n\n<p>&#8211;<strong>Facilement configurable pour agir sur les faux positifs : <\/strong>lorsque le nombre de faux positifs doit \u00eatre r\u00e9duit ou augment\u00e9 pour r\u00e9pondre aux besoins de l&rsquo;entreprise, les utilisateurs peuvent facilement ajuster le seuil de correspondance pour manipuler les r\u00e9sultats ou avoir plus de correspondances pour une inspection manuelle. Les utilisateurs disposent ainsi d&rsquo;une plus grande souplesse pour adapter les algorithmes de logique floue \u00e0 des exigences de correspondance sp\u00e9cifiques.<\/p>\n\n\n\n<p>&#8211; <strong>Mieux adapt\u00e9 \u00e0 la recherche de correspondances sans identifiant unique coh\u00e9rent : <\/strong>il est essentiel de disposer de donn\u00e9es d&rsquo;identification uniques, telles que le SSN ou la date de naissance, pour trouver des correspondances entre des sources de donn\u00e9es disparates dans le cas d&rsquo;une correspondance d\u00e9terministe. Cependant, en utilisant une approche d&rsquo;analyse statistique, la correspondance floue peut aider \u00e0 trouver des doublons m\u00eame sans donn\u00e9es d&rsquo;identification coh\u00e9rentes.<\/p>\n\n\n\n<p>Cependant, la correspondance floue n&rsquo;est pas sans limites. Il s&rsquo;agit notamment de :<\/p>\n\n\n\n<p>&#8211; <strong>Peut lier incorrectement diff\u00e9rentes entit\u00e9s : <\/strong>malgr\u00e9 la configurabilit\u00e9 disponible dans la correspondance floue, un nombre \u00e9lev\u00e9 de faux positifs dus \u00e0 une liaison incorrecte d&rsquo;entit\u00e9s apparemment similaires mais diff\u00e9rentes peut entra\u00eener une augmentation du temps pass\u00e9 \u00e0 v\u00e9rifier manuellement les doublons par rapport aux identifiants uniques.<\/p>\n\n\n\n<p>&#8211; <strong>Difficult\u00e9 de mise \u00e0 l&rsquo;\u00e9chelle sur des ensembles de donn\u00e9es plus importants : <\/strong>la logique floue peut \u00eatre difficile \u00e0 mettre \u00e0 l&rsquo;\u00e9chelle sur des millions de points de donn\u00e9es, notamment dans le cas de sources de donn\u00e9es disparates.<\/p>\n\n\n\n<p>&#8211; <strong>Peut n\u00e9cessiter des tests consid\u00e9rables pour \u00eatre valid\u00e9 : <\/strong>les r\u00e8gles d\u00e9finies dans les algorithmes doivent \u00eatre constamment affin\u00e9es et test\u00e9es pour garantir qu&rsquo;il est possible d&rsquo;ex\u00e9cuter des correspondances avec une grande pr\u00e9cision.<\/p>\n\n\n\n<h2 id=\"comment-reduire-au-minimum-les-faux-positifs-et-negatifs\"><strong>Comment r\u00e9duire au minimum les faux positifs et n\u00e9gatifs ?<\/strong><\/h2>\n\n\n\n<p>Nous avons abord\u00e9 bri\u00e8vement les faux positifs dans la section pr\u00e9c\u00e9dente. Bien qu&rsquo;ils rendent la correspondance plus difficile en ajoutant un temps de r\u00e9vision manuelle au processus, ils ne constituent pas un risque r\u00e9el pour l&rsquo;entreprise, car le syst\u00e8me signalera les faux positifs en fonction du score de correspondance global. Examinons maintenant les \u00ab\u00a0faux n\u00e9gatifs\u00a0\u00bb. Il s&rsquo;agit des matches qui ne sont pas du tout pris en compte par le syst\u00e8me : il ne s&rsquo;agit pas seulement d&rsquo;un score de match faible, mais d&rsquo;une absence de score de match. Cela entra\u00eene un risque s\u00e9rieux pour l&rsquo;entreprise, car les faux n\u00e9gatifs ne sont jamais examin\u00e9s, car personne ne sait qu&rsquo;ils existent. Les facteurs qui conduisent g\u00e9n\u00e9ralement \u00e0 des faux n\u00e9gatifs sont les suivants :<\/p>\n\n\n\n<ul><li>Manque de donn\u00e9es pertinentes<\/li><li>Erreurs significatives dans la saisie des donn\u00e9es<\/li><li>Limites du syst\u00e8me<\/li><li>Le crit\u00e8re de correspondance est trop \u00e9troit<\/li><li>Niveau inappropri\u00e9 de la correspondance floue<\/li><\/ul>\n\n\n\n<p>La m\u00e9thode la plus efficace pour minimiser les faux positifs et n\u00e9gatifs est de profiler et de nettoyer les sources de donn\u00e9es s\u00e9par\u00e9ment avant de proc\u00e9der au rapprochement. Les principaux fournisseurs de <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-correspondance-de-donnees-classe-parmi-les-meilleurs-de-sa-categorie-avec-une-precision-de-correspondance-de-96\/\" target=\"_blank\" rel=\"noreferrer noopener\">solutions de rapprochement de donn\u00e9es<\/a> proposent g\u00e9n\u00e9ralement un profileur de donn\u00e9es qui fournit rapidement suffisamment de m\u00e9tadonn\u00e9es pour construire une analyse de profil convaincante de la qualit\u00e9 des donn\u00e9es, comme les valeurs manquantes, le manque de standardisation, ou toute autre anomalie dans vos donn\u00e9es. En <a href=\"https:\/\/dataladder.com\/fr\/logiciels-et-outils-de-profilage-de-donnees-obtenez-des-resultats-instantanes-devaluation-de-la-qualite-des-donnees\/\">\u00e9tablissant le profil de vos donn\u00e9es<\/a>, vous pouvez rapidement quantifier la port\u00e9e et la profondeur du projet principal, qu&rsquo;il s&rsquo;agisse de la gestion des donn\u00e9es de r\u00e9f\u00e9rence, du rapprochement, du nettoyage, de la d\u00e9duplication ou de la normalisation.<\/p>\n\n\n\n<p>Une fois que vous aurez \u00e9tabli le profil de vos donn\u00e9es, vous saurez exactement quelles r\u00e8gles de gestion appliquer pour nettoyer et normaliser vos donn\u00e9es le plus efficacement possible. Vous serez \u00e9galement en mesure de reconna\u00eetre et de combler rapidement les valeurs manquantes, peut-\u00eatre en achetant des donn\u00e9es de tiers.<\/p>\n\n\n\n<p>Des donn\u00e9es plus propres et plus compl\u00e8tes r\u00e9duisent consid\u00e9rablement les faux positifs et n\u00e9gatifs en augmentant la pr\u00e9cision des correspondances, car vos donn\u00e9es sont d\u00e9sormais normalis\u00e9es. Les algorithmes de correspondance floue que vous utilisez, les crit\u00e8res de correspondance que vous d\u00e9finissez, le poids que vous attribuez aux diff\u00e9rents param\u00e8tres, la fa\u00e7on dont vous combinez les diff\u00e9rents algorithmes et leur attribuez une priorit\u00e9 &#8211; ce sont tous des facteurs importants pour minimiser les faux positifs et n\u00e9gatifs \u00e9galement. Mais rien de tout cela ne sera d&rsquo;une grande utilit\u00e9 si vous n&rsquo;avez pas d&rsquo;abord profil\u00e9 et nettoy\u00e9 vos donn\u00e9es. D\u00e9couvrez comment DataMatch Enterprise a aid\u00e9 plus de 4 000 clients dans plus de 40 pays \u00e0 nettoyer, d\u00e9dupliquer et relier efficacement leurs donn\u00e9es.<\/p>\n\n\n\n<h2 id=\"scripts-d-appariement-flou-ou-logiciel-d-appariement-flou-lequel-est-le-meilleur\"><strong>Scripts d&rsquo;appariement flou ou logiciel d&rsquo;appariement flou : Lequel est le meilleur ?<\/strong><\/h2>\n\n\n\n<h3 id=\"scripts-de-correspondance-floue\"><strong>Scripts de correspondance floue<\/strong><\/h3>\n\n\n\n<p>La logique floue peut facilement \u00eatre appliqu\u00e9e \u00e0 partir de scripts de codage manuel qui sont disponibles dans divers langages de programmation et applications. En voici quelques-unes :<\/p>\n\n\n\n<p>&#8211; <strong>Python :<\/strong> Les biblioth\u00e8ques Python telles que FuzzyWuzzy peuvent \u00eatre utilis\u00e9es pour ex\u00e9cuter la correspondance des cha\u00eenes de caract\u00e8res de mani\u00e8re simple et intuitive. En utilisant le Python Record Linkage Tookit, les utilisateurs peuvent ex\u00e9cuter plusieurs m\u00e9thodes d&rsquo;indexation, y compris le voisinage tri\u00e9 et le blocage, et identifier les doublons en utilisant FuzzyWuzzy. Bien que Python soit facile \u00e0 utiliser, l&rsquo;ex\u00e9cution des correspondances peut \u00eatre plus lente que d&rsquo;autres m\u00e9thodes.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"98\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Python-Fuzzy-300x98-1.png\" alt=\"\" class=\"wp-image-60308\"\/><\/figure>\n\n\n\n<p>Source : <a href=\"https:\/\/www.datacamp.com\/community\/tutorials\/fuzzy-string-python\">DataCamp<\/a><\/p>\n\n\n\n<p>&#8211; <strong>Java : <\/strong>Java comprend plusieurs algorithmes de similarit\u00e9 de cha\u00eenes de caract\u00e8res, comme le paquet java-string-similarity qui comprend des algorithmes tels que Levenshtein, l&rsquo;indice Jaccard et Jaro-Wrinkler. Il est \u00e9galement possible d&rsquo;utiliser l&rsquo;algorithme FuzzyWuzzy de Python dans Java pour ex\u00e9cuter les correspondances. Voici un exemple ci-dessous :<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"51\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/GitHub-Fuzzy-300x51-1.png\" alt=\"\" class=\"wp-image-60312\"\/><\/figure>\n\n\n\n<p>Source : <a href=\"https:\/\/github.com\/xdrop\/fuzzywuzzy\">GitHub<\/a><\/p>\n\n\n\n<p>&#8211; <strong>Excel : <\/strong>Le module compl\u00e9mentaire Fuzzy Look-up peut \u00eatre utilis\u00e9 pour effectuer une correspondance floue entre deux ensembles de donn\u00e9es. L&rsquo;add-in poss\u00e8de une interface simple qui permet de s\u00e9lectionner les colonnes de sortie ainsi que le nombre de correspondances et le seuil de similarit\u00e9. Cependant, cette fonctionnalit\u00e9 peut \u00e9galement donner des faux positifs \u00e9lev\u00e9s, car elle peut ne pas identifier correctement les doublons. Par exemple, \u00ab\u00a0ATT CORP\u00a0\u00bb et \u00ab\u00a0AT&amp;T Inc.\u00a0\u00bb.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"110\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Excel-Fuzzy-300x110-1.png\" alt=\"\" class=\"wp-image-60316\"\/><\/figure>\n\n\n\n<p>Source : <a href=\"https:\/\/www.youtube.com\/watch?v=IG27sqkIO8w\">Mr.Excel.com<\/a><\/p>\n\n\n\n<h3 id=\"logiciel-de-correspondance-floue\"><strong>Logiciel de correspondance floue<\/strong><\/h3>\n\n\n\n<p>D&rsquo;autre part, les logiciels de mise en correspondance floue sont \u00e9quip\u00e9s d&rsquo;un ou plusieurs algorithmes de logique floue, ainsi que d&rsquo;une mise en correspondance exacte et phon\u00e9tique, afin d&rsquo;identifier et de mettre en correspondance des enregistrements parmi des millions de points de donn\u00e9es provenant de sources de donn\u00e9es multiples et disparates, notamment des bases de donn\u00e9es relationnelles, des applications Web et des CRM.<\/p>\n\n\n\n<p>Les outils de comparaison floue sont dot\u00e9s de fonctions de qualit\u00e9 des donn\u00e9es pr\u00e9d\u00e9finies, telles que le profilage, le nettoyage et la normalisation des donn\u00e9es, afin d&rsquo;affiner et d&rsquo;am\u00e9liorer efficacement la pr\u00e9cision des correspondances entre deux ou plusieurs ensembles de donn\u00e9es.<\/p>\n\n\n\n<p>Contrairement aux scripts de correspondance, ces outils sont beaucoup plus faciles \u00e0 d\u00e9ployer et \u00e0 ex\u00e9cuter gr\u00e2ce \u00e0 une interface de type pointer-cliquer.<\/p>\n\n\n\n<h3 id=\"lequel-est-le-meilleur\"><strong>Lequel est le meilleur ?<\/strong><\/h3>\n\n\n\n<p>Le choix de l&rsquo;une ou l&rsquo;autre de ces deux approches d\u00e9pend des facteurs suivants :<\/p>\n\n\n\n<p><strong>Temps<\/strong><\/p>\n\n\n\n<p>Les scripts de correspondance ont l&rsquo;avantage d&rsquo;\u00eatre faciles \u00e0 d\u00e9ployer \u00e0 la convenance des utilisateurs. Toutefois, le perfectionnement et les tests constants n\u00e9cessaires pour garantir son efficacit\u00e9, en particulier sur des centaines et des milliers d&rsquo;enregistrements, peuvent n\u00e9cessiter des semaines, voire des mois de travail. Dans les sc\u00e9narios o\u00f9 les doublons et les concordances doivent \u00eatre trouv\u00e9s plus rapidement pour respecter les d\u00e9lais serr\u00e9s d&rsquo;un projet, un outil de concordance floue s&rsquo;av\u00e8re beaucoup plus fiable et pratique pour effectuer des concordances dans de tr\u00e8s grands ensembles de donn\u00e9es en quelques jours ou quelques heures.<\/p>\n\n\n\n<p><strong>Co\u00fbt<\/strong><\/p>\n\n\n\n<p>Les scripts de codage manuel sont peu co\u00fbteux \u00e0 utiliser par rapport aux outils de comparaison, \u00e0 condition que le nombre d&rsquo;enregistrements soit faible. Toutefois, pour les ensembles de donn\u00e9es comprenant des millions ou des milliards d&rsquo;enregistrements, le co\u00fbt de l&rsquo;utilisation de scripts peut largement d\u00e9passer celui des outils de mise en correspondance, compte tenu du temps et des ressources n\u00e9cessaires pour r\u00e9pondre aux besoins des utilisateurs.<\/p>\n\n\n\n<p><strong>\u00c9volutivit\u00e9<\/strong><\/p>\n\n\n\n<p>Les scripts de logique floue ont tendance \u00e0 mieux fonctionner pour quelques milliers d&rsquo;enregistrements, lorsque les variations de donn\u00e9es ne sont pas trop importantes, sinon les r\u00e8gles peuvent s&rsquo;effondrer et n\u00e9cessiter plus de raffinement, ce qui rend difficile leur extension.<\/p>\n\n\n\n<p>Un outil de comparaison floue est \u00e9quip\u00e9 de la capacit\u00e9 d&rsquo;effectuer des comparaisons avec des millions de points de donn\u00e9es en quelques heures, ainsi que de capacit\u00e9s d&rsquo;automatisation par lots et en temps r\u00e9el afin de minimiser les t\u00e2ches r\u00e9p\u00e9titives et les heures de travail.<\/p>\n\n\n\n<p><strong>Complexit\u00e9 des donn\u00e9es<\/strong><\/p>\n\n\n\n<p>Les utilisateurs peuvent vouloir trouver des correspondances ou des doublons dans quelques milliers d&rsquo;enregistrements. En revanche, les agences f\u00e9d\u00e9rales, les institutions publiques et les entreprises disposent souvent d&rsquo;ensembles de donn\u00e9es non homog\u00e8nes provenant de sources multiples (Excel, CSV, bases de donn\u00e9es relationnelles, donn\u00e9es d&rsquo;anciens ordinateurs centraux et r\u00e9f\u00e9rentiels Hadoop).<\/p>\n\n\n\n<p>Dans le cas des scripts de codage manuel, en revanche, les utilisateurs doivent r\u00e9diger de multiples r\u00e8gles complexes de logique floue pour tenir compte de la disparit\u00e9 des donn\u00e9es et de leurs anomalies, ce qui est tr\u00e8s fastidieux et prend beaucoup de temps.<\/p>\n\n\n\n<h2 id=\"c-est-simple-rapide-et-axe-sur-la-creation-de-valeur-pour-l-entreprise\"><strong>C&rsquo;est simple, rapide et ax\u00e9 sur la cr\u00e9ation de valeur pour l&rsquo;entreprise.<\/strong><\/h2>\n\n\n\n<p>Traditionnellement, l&rsquo;appariement flou est consid\u00e9r\u00e9 comme un art complexe et obscur, o\u00f9 les co\u00fbts des projets se chiffrent g\u00e9n\u00e9ralement en centaines de milliers de dollars, o\u00f9 il faut des mois, voire des ann\u00e9es, pour obtenir un retour sur investissement tangible et o\u00f9, m\u00eame dans ce cas, des probl\u00e8mes de s\u00e9curit\u00e9, d&rsquo;\u00e9volutivit\u00e9 et de pr\u00e9cision subsistent. Ce n&rsquo;est plus le cas avec les logiciels modernes de qualit\u00e9 des donn\u00e9es. Bas\u00e9 sur des d\u00e9cennies de recherche et plus de 4 000 d\u00e9ploiements dans plus de 40 pays, <a href=\"https:\/\/dataladder.com\/fr\/produits\/datamatch-enterprise-classe-premier-produit-de-gestion-de-la-qualite-des-donnees\/\" target=\"_blank\" rel=\"noreferrer noopener\">DataMatch Enterprise<\/a> est une application de nettoyage de donn\u00e9es hautement visuelle, sp\u00e9cialement con\u00e7ue pour r\u00e9soudre les probl\u00e8mes de qualit\u00e9 des donn\u00e9es. La plateforme exploite plusieurs algorithmes propri\u00e9taires et standard pour identifier les variations phon\u00e9tiques, floues, mal saisies, abr\u00e9g\u00e9es et sp\u00e9cifiques \u00e0 un domaine.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img width=\"1024\" height=\"434\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-1024x434.png\" alt=\"\" class=\"wp-image-60320\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-1024x434.png 1024w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-300x127.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-768x326.png 768w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1.png 1536w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Cr\u00e9ez des configurations \u00e9volutives pour la d\u00e9duplication et le <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-liaison-denregistrements\/\" target=\"_blank\" rel=\"noreferrer noopener\">couplage d&rsquo;enregistrements<\/a>, la suppression, l&rsquo;enrichissement, l&rsquo;extraction et la <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-normalisation-des-donnees-outil-de-standardisation-des-donnees-rapide-et-economique\/\">normalisation<\/a> des donn\u00e9es commerciales et clients et cr\u00e9ez une source unique de v\u00e9rit\u00e9 pour maximiser l&rsquo;impact de vos donn\u00e9es dans toute l&rsquo;entreprise.<\/p>\n\n\n\n<h2 id=\"comment-l-executer-dans-datamatch-enterprise\"><strong>Comment l&rsquo;ex\u00e9cuter dans DataMatch Enterprise<\/strong><\/h2>\n\n\n\n<p>L&rsquo;ex\u00e9cution du filtrage flou dans DataMatch Enterprise est un processus simple, \u00e9tape par \u00e9tape, comprenant les \u00e9l\u00e9ments suivants :<\/p>\n\n\n\n<ol><li>Importation de donn\u00e9es<\/li><li>Profilage des donn\u00e9es<\/li><li>Nettoyage et normalisation des donn\u00e9es<\/li><li>Configuration des correspondances<\/li><li>D\u00e9finitions des correspondances et<\/li><li>R\u00e9sultats des matchs<\/li><\/ol>\n\n\n\n<p>Tout d&rsquo;abord, nous importons les ensembles de donn\u00e9es que nous utiliserons pour trouver des correspondances et nous utilisons l&rsquo;option d&rsquo;aper\u00e7u des donn\u00e9es pour parcourir les enregistrements. Dans notre exemple, il s&rsquo;agit de &lsquo;Customer Master&rsquo; et &lsquo;New Prospect Records&rsquo; comme indiqu\u00e9 ci-dessous.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"173\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Data-Import-300x173-1.png\" alt=\"\" class=\"wp-image-60324\"\/><\/figure>\n\n\n\n<p>Ensuite, nous passons au module Profil des donn\u00e9es pour identifier toutes sortes d&rsquo;anomalies et d&rsquo;erreurs dans les donn\u00e9es statistiques, ainsi que les probl\u00e8mes potentiels qui doivent \u00eatre corrig\u00e9s ou affin\u00e9s avant de proc\u00e9der \u00e0 un rapprochement.<\/p>\n\n\n\n<p>Comme indiqu\u00e9 ci-dessous, l&rsquo;ensemble de donn\u00e9es New Prospect Records est profil\u00e9 en termes d&rsquo;enregistrements valides et invalides, de valeurs nulles, distinctes, de chiffres uniquement, de lettres uniquement, d&rsquo;espaces avant, d&rsquo;erreurs de ponctuation, et bien plus encore.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/DME-Data-Profiling-300x84.png\" alt=\"DataMatch Enterprise - Profilage des donn\u00e9es\"\/><\/figure>\n\n\n\n<p>Apr\u00e8s avoir \u00e9tabli le profil, nous passons au module de nettoyage et de normalisation des donn\u00e9es, o\u00f9 nous corrigeons les erreurs de casse, supprimons les espaces de fin et de d\u00e9but, rempla\u00e7ons les z\u00e9ros par des os et vice versa, et analysons les champs tels que le nom et l&rsquo;adresse en plusieurs incr\u00e9ments plus petits.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"76\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Cleansing-Standardization-300x76-1.png\" alt=\"\" class=\"wp-image-60328\"\/><\/figure>\n\n\n\n<p>Apr\u00e8s avoir affin\u00e9 nos donn\u00e9es, nous s\u00e9lectionnons le type de configuration de correspondance dont nous avons besoin pour notre activit\u00e9 de mise en correspondance : Tous, Entre, Dans, ou Aucun. Pour notre exemple, nous allons s\u00e9lectionner Entre pour trouver des correspondances uniquement entre les deux ensembles de donn\u00e9es.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"51\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Confg-300x51-1.png\" alt=\"\" class=\"wp-image-60332\"\/><\/figure>\n\n\n\n<p>Dans D\u00e9finitions de la correspondance, nous allons s\u00e9lectionner la d\u00e9finition de la correspondance ou les crit\u00e8res de correspondance et \u00ab\u00a0Fuzzy\u00a0\u00bb (en fonction de notre cas d&rsquo;utilisation), d\u00e9finir le niveau du seuil de correspondance \u00e0 \u00ab\u00a090\u00a0\u00bb et utiliser la correspondance \u00ab\u00a0Exact\u00a0\u00bb pour les champs Ville et \u00c9tat, puis cliquer sur \u00ab\u00a0Correspondance\u00a0\u00bb.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"122\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Defns-300x122-1.png\" alt=\"\" class=\"wp-image-60336\"\/><\/figure>\n\n\n\n<p>Sur la base de notre d\u00e9finition de la correspondance, de notre ensemble de donn\u00e9es et de l&rsquo;\u00e9tendue du nettoyage et de la normalisation, nous obtenons 526 correspondances, chacune avec un score de correspondance correspondant de 100 % et moins. Si nous avons besoin de plus de faux positifs \u00e0 inspecter manuellement, les utilisateurs peuvent facilement revenir en arri\u00e8re et abaisser le niveau du seuil.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"181\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Results-300x181-1.png\" alt=\"\" class=\"wp-image-60340\"\/><\/figure>\n\n\n\n<p>Pour plus d&rsquo;informations sur la fa\u00e7on dont vous pouvez d\u00e9ployer la correspondance floue dans DataMatch Enterprise pour votre cas d&rsquo;utilisation commerciale,<\/p>\n\n\n\n<p><a href=\"https:\/\/dataladder.com\/fr\/contactez-nous-echelle-de-donnees\/\">contactez-nous d\u00e8s aujourd&rsquo;hui.<\/a><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"887\" height=\"541\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2.png\" alt=\"\" class=\"wp-image-60344\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2.png 887w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2-300x183.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2-768x468.png 768w\" sizes=\"(max-width: 887px) 100vw, 887px\" \/><\/figure>\n\n\n\n<p><strong>Comment fonctionnent les meilleures solutions de correspondance floue de leur cat\u00e9gorie : Combinaison d&rsquo;algorithmes \u00e9tablis et exclusifs<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/content.dataladder.com\/How-Best-In-Class-Fuzzy-Matching-Solutions-Work-Combining-Established-and-Proprietary-Algorithms-WP.pdf\"><br>T\u00e9l\u00e9charger<br><\/a>Les entreprises ont besoin des meilleurs outils pour traiter ces donn\u00e9es et leur donner un sens. Ce livre blanc explore les d\u00e9fis du rapprochement, le fonctionnement des diff\u00e9rents types d&rsquo;algorithmes de rapprochement et la mani\u00e8re dont les meilleurs logiciels utilisent ces algorithmes pour atteindre les objectifs de <a href=\"https:\/\/dataladder.com\/fr\/8-avantages-du-couplage-de-donnees-qui-peuvent-vous-aider-a-developper-votre-entreprise\/\">rapprochement des donn\u00e9es<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dans ce blog, nous allons examiner en d\u00e9tail la correspondance floue, l&rsquo;approche de r\u00e9f\u00e9rence pour la d\u00e9duplication des donn\u00e9es et le couplage des enregistrements. Nous allons couvrir : Qu&rsquo;est-ce que l&rsquo;appariement flou ? Pourquoi les entreprises ont-elles besoin de la correspondance floue ? Exemple d&rsquo;un sc\u00e9nario de correspondance floue dans le monde r\u00e9el Techniques d&rsquo;appariement [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":65447,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","_links_to":"","_links_to_target":""},"categories":[1212,1345,1263],"tags":[],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v19.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder\" \/>\n<meta property=\"og:description\" content=\"Dans ce blog, nous allons examiner en d\u00e9tail la correspondance floue, l&rsquo;approche de r\u00e9f\u00e9rence pour la d\u00e9duplication des donn\u00e9es et le couplage des enregistrements. Nous allons couvrir : Qu&rsquo;est-ce que l&rsquo;appariement flou ? Pourquoi les entreprises ont-elles besoin de la correspondance floue ? Exemple d&rsquo;un sc\u00e9nario de correspondance floue dans le monde r\u00e9el Techniques d&rsquo;appariement [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Ladder\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/web.facebook.com\/DataLadderSoftware\" \/>\n<meta property=\"article:published_time\" content=\"2021-08-21T03:25:00+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2022-02-16T12:50:51+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/08\/Data-Matching_DME-Data-Profile-Graphic-copy-min.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"818\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"author\" content=\"lbarrera\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"lbarrera\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"17 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\"},\"author\":{\"name\":\"lbarrera\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\"},\"headline\":\"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es\",\"datePublished\":\"2021-08-21T03:25:00+00:00\",\"dateModified\":\"2022-02-16T12:50:51+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\"},\"wordCount\":3810,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\"},\"articleSection\":[\"Data quality management\",\"En vedette :\",\"Gestion de la qualit\u00e9 des donn\u00e9es\"],\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\",\"url\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\",\"name\":\"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#website\"},\"datePublished\":\"2021-08-21T03:25:00+00:00\",\"dateModified\":\"2022-02-16T12:50:51+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dataladder.com\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dataladder.com\/fr\/#website\",\"url\":\"https:\/\/dataladder.com\/fr\/\",\"name\":\"Data Ladder\",\"description\":\"Enterprise Data Profiling, Cleansing, and Matching\",\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dataladder.com\/fr\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\",\"name\":\"Data Ladder\",\"url\":\"https:\/\/dataladder.com\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"contentUrl\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"width\":413,\"height\":408,\"caption\":\"Data Ladder\"},\"image\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/dataladder-llc\/\",\"https:\/\/web.facebook.com\/DataLadderSoftware\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\",\"name\":\"lbarrera\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"caption\":\"lbarrera\"},\"url\":\"https:\/\/dataladder.com\/fr\/author\/lbarrera\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/","og_locale":"fr_FR","og_type":"article","og_title":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder","og_description":"Dans ce blog, nous allons examiner en d\u00e9tail la correspondance floue, l&rsquo;approche de r\u00e9f\u00e9rence pour la d\u00e9duplication des donn\u00e9es et le couplage des enregistrements. Nous allons couvrir : Qu&rsquo;est-ce que l&rsquo;appariement flou ? Pourquoi les entreprises ont-elles besoin de la correspondance floue ? Exemple d&rsquo;un sc\u00e9nario de correspondance floue dans le monde r\u00e9el Techniques d&rsquo;appariement [&hellip;]","og_url":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/","og_site_name":"Data Ladder","article_publisher":"https:\/\/web.facebook.com\/DataLadderSoftware","article_published_time":"2021-08-21T03:25:00+00:00","article_modified_time":"2022-02-16T12:50:51+00:00","og_image":[{"width":2560,"height":818,"url":"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/08\/Data-Matching_DME-Data-Profile-Graphic-copy-min.webp","type":"image\/webp"}],"author":"lbarrera","twitter_card":"summary_large_image","twitter_misc":{"\u00c9crit par":"lbarrera","Dur\u00e9e de lecture estim\u00e9e":"17 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#article","isPartOf":{"@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/"},"author":{"name":"lbarrera","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b"},"headline":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es","datePublished":"2021-08-21T03:25:00+00:00","dateModified":"2022-02-16T12:50:51+00:00","mainEntityOfPage":{"@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/"},"wordCount":3810,"commentCount":0,"publisher":{"@id":"https:\/\/dataladder.com\/fr\/#organization"},"articleSection":["Data quality management","En vedette :","Gestion de la qualit\u00e9 des donn\u00e9es"],"inLanguage":"fr-FR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/","url":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/","name":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es - Data Ladder","isPartOf":{"@id":"https:\/\/dataladder.com\/fr\/#website"},"datePublished":"2021-08-21T03:25:00+00:00","dateModified":"2022-02-16T12:50:51+00:00","breadcrumb":{"@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dataladder.com\/fr\/correspondance-floue-101-nettoyage-et-mise-en-relation-de-donnees-desordonnees\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dataladder.com\/fr\/"},{"@type":"ListItem","position":2,"name":"Correspondance floue 101 : Nettoyage et mise en relation de donn\u00e9es d\u00e9sordonn\u00e9es"}]},{"@type":"WebSite","@id":"https:\/\/dataladder.com\/fr\/#website","url":"https:\/\/dataladder.com\/fr\/","name":"Data Ladder","description":"Enterprise Data Profiling, Cleansing, and Matching","publisher":{"@id":"https:\/\/dataladder.com\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dataladder.com\/fr\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/dataladder.com\/fr\/#organization","name":"Data Ladder","url":"https:\/\/dataladder.com\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","contentUrl":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","width":413,"height":408,"caption":"Data Ladder"},"image":{"@id":"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/dataladder-llc\/","https:\/\/web.facebook.com\/DataLadderSoftware"]},{"@type":"Person","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b","name":"lbarrera","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","caption":"lbarrera"},"url":"https:\/\/dataladder.com\/fr\/author\/lbarrera\/"}]}},"modified_by":null,"_links":{"self":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62268"}],"collection":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/comments?post=62268"}],"version-history":[{"count":5,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62268\/revisions"}],"predecessor-version":[{"id":65581,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62268\/revisions\/65581"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/media\/65447"}],"wp:attachment":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/media?parent=62268"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/categories?post=62268"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/tags?post=62268"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}