{"id":62243,"date":"2021-11-15T11:23:47","date_gmt":"2021-11-15T11:23:47","guid":{"rendered":"https:\/\/dataladder.com\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/"},"modified":"2021-12-21T13:52:49","modified_gmt":"2021-12-21T13:52:49","slug":"pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser","status":"publish","type":"post","link":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/","title":{"rendered":"Pourquoi les doublons existent-ils et comment s&rsquo;en d\u00e9barrasser ?"},"content":{"rendered":"\n<p>Selon Natik Ameen, expert en marketing chez <a href=\"https:\/\/www.canzmarketing.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Canz Marketing<\/a>, les donn\u00e9es en double dans le CRM de l&rsquo;entreprise sont dues \u00e0 toute une s\u00e9rie de raisons :  <\/p>\n\n<blockquote class=\"wp-block-quote\"><p>\u00ab\u00a0<em>d&rsquo;une erreur humaine \u00e0 des clients fournissant des informations l\u00e9g\u00e8rement diff\u00e9rentes \u00e0 diff\u00e9rents moments dans la base de donn\u00e9es de l&rsquo;organisation. Par exemple, un consommateur inscrit son nom en tant que Jonathan Smith sur un formulaire et Jon Smith sur l&rsquo;autre. Le d\u00e9fi est exacerb\u00e9 par une base de donn\u00e9es en pleine expansion. Il est souvent de plus en plus difficile pour les administrateurs d&rsquo;assurer le suivi de la DB ainsi que celui des donn\u00e9es pertinentes. Il est de plus en plus difficile de s&rsquo;assurer que la BD de l&rsquo;organisation reste exacte.<\/em>\u00ab\u00a0.  <\/p><\/blockquote>\n\n<p>La<a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-deduplication-de-donnees-utilisez-des-regles-integrees-et-personnalisees-pour-la-deduplication-crm\/\">d\u00e9duplication des donn\u00e9es<\/a> se produit lorsque vous stockez des informations sur la m\u00eame entit\u00e9 plusieurs fois, au lieu de mettre \u00e0 jour un seul enregistrement. Dans ce guide, nous aborderons quelques concepts de base concernant la duplication des donn\u00e9es et une liste de techniques et d&rsquo;algorithmes couramment utilis\u00e9s pour y rem\u00e9dier.  <\/p>\n\n<h3>Pourquoi les doublons existent-ils ?  <\/h3>\n\n<p>Les donn\u00e9es ont des repr\u00e9sentations multiples &#8211; ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C&rsquo;est la principale raison pour laquelle des enregistrements en double existent dans une base de donn\u00e9es. Que les enregistrements soient fusionn\u00e9s \u00e0 partir de sources de donn\u00e9es ind\u00e9pendantes ou qu&rsquo;ils soient saisis dans une base de donn\u00e9es unique au fil du temps, tous deux conduisent au probl\u00e8me complexe de la duplication des donn\u00e9es.  <\/p>\n\n<p>Id\u00e9alement, chaque enregistrement d&rsquo;une base de donn\u00e9es devrait repr\u00e9senter une entit\u00e9 unique. Mais pour un certain nombre de raisons (les plus courantes sont mentionn\u00e9es ci-dessous), nous remarquons que les informations d&rsquo;une entit\u00e9 s&rsquo;\u00e9tendent sur plusieurs enregistrements.  <\/p>\n\n<h4><strong>1. Manque d&rsquo;identifiants uniques  <\/strong><\/h4>\n\n<p>Disposer d&rsquo;identifiants uniques dans votre base de donn\u00e9es est le meilleur moyen d&rsquo;\u00e9viter de stocker des doublons. Un identifiant unique est un champ de donn\u00e9es qui est toujours unique pour une entit\u00e9 (par exemple, le <em>num\u00e9ro de s\u00e9curit\u00e9 sociale (SSN)<\/em> pour les donn\u00e9es relatives aux clients, le <em>num\u00e9ro de pi\u00e8ce du fabricant (MPN) <\/em>, etc.  pour les donn\u00e9es relatives aux produits, etc.) \u00c0 chaque nouvelle entr\u00e9e de donn\u00e9es, vous pouvez v\u00e9rifier si un enregistrement avec le m\u00eame identifiant unique existe. Et si c&rsquo;est le cas, vous pouvez simplement le mettre \u00e0 jour ou le fusionner, et \u00e9viter de stocker un nouvel enregistrement pour la m\u00eame entit\u00e9. Mais si votre base de donn\u00e9es ne contient pas un tel identifiant unique, le processus de mise en relation des nouvelles entit\u00e9s entrantes avec les entit\u00e9s existantes devient une t\u00e2che complexe.  <\/p>\n\n<h4><strong>2. Absence de contr\u00f4les de validation et de contraintes d&rsquo;int\u00e9grit\u00e9  <\/strong><\/h4>\n\n<p>M\u00eame avec la pr\u00e9sence d&rsquo;identifiants uniques, vous pouvez vous retrouver avec des doublons dans votre base de donn\u00e9es. Cela se produit lorsque les identificateurs uniques ne sont pas conformes \u00e0 des mod\u00e8les valides (par exemple, <em>AAA-GG-SSSS<\/em> pour le <em>SSN<\/em>), ou n&rsquo;ont pas de contraintes d&rsquo;int\u00e9grit\u00e9 strictes (par exemple, <em>limite de 11 caract\u00e8res<\/em> pour le <em>SSN<\/em>).  <\/p>\n\n<h4><strong>3. Erreurs de saisie des donn\u00e9es  <\/strong><\/h4>\n\n<p>Le taux d&rsquo;erreur de saisie des donn\u00e9es est de <a href=\"https:\/\/www.ocrolus.com\/blog\/human-error-8-eye-popping-sets-of-stats-and-examples\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">400 pour 10 000 entr\u00e9es<\/a>, ce qui est un chiffre important. Ainsi, m\u00eame avec la pr\u00e9sence d&rsquo;identifiants uniques, de contr\u00f4les de validation et de contraintes d&rsquo;int\u00e9grit\u00e9, il est possible que l&rsquo;erreur humaine intervienne et permette la pr\u00e9sence de doublons dans votre base de donn\u00e9es.  <\/p>\n\n<h3><strong>Difficult\u00e9 de comparaison des donn\u00e9es &#8211; H\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 des donn\u00e9es<\/strong> <\/h3>\n\n<p>Pour \u00e9liminer les doublons dans votre base de donn\u00e9es, vous devez comparer les enregistrements et \u00e9valuer ceux qui appartiennent \u00e0 la m\u00eame entit\u00e9. Mais lorsque vous comparez des enregistrements de donn\u00e9es (soit dans la m\u00eame base de donn\u00e9es, soit appartenant \u00e0 des bases de donn\u00e9es diff\u00e9rentes), vous remarquerez qu&rsquo;ils pr\u00e9sentent certaines diff\u00e9rences syst\u00e9matiques, ce qui rend difficile leur comparaison exacte. C&rsquo;est ce qu&rsquo;on appelle g\u00e9n\u00e9ralement l&rsquo;<strong> h\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 des donn\u00e9es<\/strong>.  <\/p>\n\n<p>De mani\u00e8re g\u00e9n\u00e9rale, on peut classer les donn\u00e9es h\u00e9t\u00e9rog\u00e8nes comme suit :  <\/p>\n\n<h4><strong>1. H\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 structurelle  <\/strong><\/h4>\n\n<p>Ce type de diff\u00e9rence se produit lorsque des champs de diff\u00e9rentes bases de donn\u00e9es repr\u00e9sentent la m\u00eame information d&rsquo;une mani\u00e8re structurellement diff\u00e9rente. Par exemple, une base de donn\u00e9es peut stocker le nom d&rsquo;un contact en tant que <em>Nom du contact<\/em>, tandis que dans une autre base de donn\u00e9es, il est stock\u00e9 dans plusieurs colonnes telles que <em>Salutation,<\/em> <em>Pr\u00e9nom<\/em>, <em>Second pr\u00e9nom<\/em> et <em>Nom de famille.<\/em> <\/p>\n\n<h4><strong>2. H\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 lexicale  <\/strong><\/h4>\n\n<p>Ce type de diff\u00e9rence se produit lorsque les champs de diff\u00e9rentes bases de donn\u00e9es sont structurellement les m\u00eames, mais qu&rsquo;ils repr\u00e9sentent la m\u00eame information d&rsquo;une mani\u00e8re syntaxiquement diff\u00e9rente. Par exemple, deux bases de donn\u00e9es ou plus peuvent avoir le m\u00eame champ <em>Adresse <\/em>, mais l&rsquo;une peut avoir une valeur d&rsquo;adresse : <em>32 E St. 4<\/em>, alors que l&rsquo;autre peut avoir pour valeur <em>32 East, 4<\/em><em>\n  <sup>th<\/sup>\n<\/em><em> rue<\/em>.  <\/p>\n\n<h3><strong>Processus de d\u00e9duplication des donn\u00e9es<\/strong> <\/h3>\n\n<p>En termes simples, le processus de d\u00e9duplication implique :  <\/p>\n\n<ol><li><strong>Pr\u00e9parer les donn\u00e9es en normalisant les champs<\/strong> dans toutes les bases de donn\u00e9es<\/li><li><strong>Mise en correspondance des champs<\/strong> qui repr\u00e9sentent la m\u00eame information  <\/li><li><strong>choisir une technique appropri\u00e9e de mise en correspondance des champs<\/strong> (en fonction de la nature des donn\u00e9es), puis calculer la similarit\u00e9 entre les champs de donn\u00e9es  <\/li><\/ol>\n\n<p>Dans les prochaines sections, nous d\u00e9taillerons un peu plus les \u00e9tapes mentionn\u00e9es ci-dessus.  <\/p>\n\n<h4><strong>1. Pr\u00e9paration des donn\u00e9es  <\/strong><\/h4>\n\n<p>La premi\u00e8re \u00e9tape du processus consiste \u00e0 assurer l&rsquo;uniformit\u00e9 de toutes les bases de donn\u00e9es en termes de structure de donn\u00e9es et de champs. Ce processus r\u00e9duit l&rsquo;h\u00e9t\u00e9rog\u00e9n\u00e9it\u00e9 structurelle des bases de donn\u00e9es, du moins dans une certaine mesure. Il s&rsquo;agit de suivre deux \u00e9tapes :<\/p>\n\n<h5><strong>a. <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-nettoyage-de-donnees-outil-de-nettoyage-des-donnees-crm-rapide-et-economique\/\">Nettoyage<\/a> et <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-normalisation-des-donnees-outil-de-standardisation-des-donnees-rapide-et-economique\/\">normalisation<\/a> <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-nettoyage-de-donnees-outil-de-nettoyage-des-donnees-crm-rapide-et-economique\/\">des donn\u00e9es<\/a>  <\/strong><\/h5>\n\n<p>Il s&rsquo;agit de supprimer toute erreur ou variation dans les formats et les types de donn\u00e9es des valeurs, ou dans la structure des bases de donn\u00e9es. Ceci peut \u00eatre r\u00e9alis\u00e9 par :  <\/p>\n\n<ol><li><strong>Analyse syntaxique des longues cha\u00eenes de caract\u00e8res<\/strong> pour identifier les composants importants des donn\u00e9es. C&rsquo;est le cas, par exemple, lorsque vous avez l&rsquo;adresse compl\u00e8te dans un seul champ. L&rsquo;analyse du champ <em>Adresse<\/em> permet d&rsquo;obtenir les \u00e9l\u00e9ments de donn\u00e9es suivants : <em>nom de la rue<\/em>, <em>num\u00e9ro de la rue<\/em>, <em>code postal<\/em>, <em>ville<\/em>, <em>\u00c9tat<\/em> et <em>pays<\/em>. L&rsquo;appariement devient plus facile sur ces \u00e9l\u00e9ments analys\u00e9s, par rapport \u00e0 l&rsquo;appariement sur le champ entier.  <\/li><li><strong>Transformer les valeurs des donn\u00e9es<\/strong> pour obtenir des types de donn\u00e9es, des conventions de d\u00e9nomination, etc. similaires. Cela peut se faire en convertissant les types de donn\u00e9es (par exemple, une cha\u00eene de caract\u00e8res en un nombre), en renommant les noms des colonnes ou en fusionnant les champs.  <\/li><li><strong>Normalisation des mod\u00e8les<\/strong> pour toutes les valeurs contenues dans un champ de donn\u00e9es, de sorte que chaque valeur est cens\u00e9e suivre le mod\u00e8le sp\u00e9cifi\u00e9. Par exemple, vous pouvez normaliser le mod\u00e8le du champ \u00a0\u00bb <em>Num\u00e9ro de t\u00e9l\u00e9phone\u00a0\u00bb<\/em> \u00e0 <em>XXX-XXX-XXXX<\/em>. Les comparaisons et les rapprochements sont donc plus faciles et plus pr\u00e9cis.  <\/li><\/ol>\n\n<h5><strong>b. Cartographie des champs de donn\u00e9es  <\/strong><\/h5>\n\n<p>Une fois que les bases de donn\u00e9es sont normalis\u00e9es (autant que possible), l&rsquo;\u00e9tape suivante consiste \u00e0 mettre en correspondance les champs qui repr\u00e9sentent les m\u00eames informations. Cela se fait soit manuellement (par exemple,  <em>Adresse<\/em> \u00e0  <em>Adresse<\/em>,  <em>Num\u00e9ro de t\u00e9l\u00e9phone<\/em> \u00e0  <em>Num\u00e9ro de t\u00e9l\u00e9phone<\/em>, etc.), ou en effectuant des v\u00e9rifications pour identifier les valeurs des champs qui se chevauchent avec les champs de l&rsquo;autre base de donn\u00e9es. Pour les petits ensembles de donn\u00e9es, la premi\u00e8re technique est utile, mais si vous avez de grands ensembles de donn\u00e9es o\u00f9 les colonnes sont nomm\u00e9es diff\u00e9remment, la seconde est tr\u00e8s utile.  <\/p>\n\n<h4>2. Calcul de la similarit\u00e9 \u00e0 l&rsquo;aide de techniques de comparaison de champs  <\/h4>\n\n<p>Une fois cette \u00e9tape franchie, les donn\u00e9es sont relativement plus faciles \u00e0 comparer et \u00e0 identifier les doublons. Mais les fautes d&rsquo;orthographe, les erreurs typographiques humaines et les variations conventionnelles existent toujours. C&rsquo;est pourquoi les techniques de correspondance exacte ne sont pas utiles ici, et nous avons besoin de techniques qui prennent en compte ces aspects des donn\u00e9es tout en calculant des scores pour \u00e9valuer la similarit\u00e9 entre les valeurs individuelles, et donc, l&rsquo;enregistrement entier.  <\/p>\n\n<h5><strong>a. M\u00e9triques de similarit\u00e9 bas\u00e9es sur les caract\u00e8res  <\/strong><\/h5>\n\n<p>\u00c9tant donn\u00e9 que la plupart des erreurs typographiques se produisent dans des cha\u00eenes de caract\u00e8res, nous examinerons dans cette section les techniques les plus courantes de recherche de similitude entre cha\u00eenes de caract\u00e8res.  <\/p>\n\n<h6>i.  <strong>Distance d&rsquo;\u00e9dition<\/strong> <\/h6>\n\n<p>Cet algorithme calcule la distance entre deux cha\u00eenes de caract\u00e8res, calcul\u00e9e caract\u00e8re par caract\u00e8re. La distance est calcul\u00e9e en comptant le nombre d&rsquo;\u00e9ditions n\u00e9cessaires pour transformer la premi\u00e8re cha\u00eene en la deuxi\u00e8me cha\u00eene. Ensuite, on d\u00e9finit un seuil qui permet de classer deux cha\u00eenes de caract\u00e8res comme concordantes (si la <em>distance est de &lt; <\/em>) ou non concordantes (si la <em>distance est de &gt; <\/em>). Trois types de modifications sont autoris\u00e9s pour calculer la distance : l&rsquo;<em>insertion d&rsquo;<\/em>un caract\u00e8re dans la cha\u00eene, la <em>suppression d&rsquo;<\/em>un caract\u00e8re de la cha\u00eene, le <em>remplacement d&rsquo;<\/em>un caract\u00e8re par un autre dans la cha\u00eene.  <\/p>\n\n<p>Normalement, le compte d&rsquo;une op\u00e9ration d&rsquo;\u00e9dition est consid\u00e9r\u00e9 comme \u00e9tant \u00e9gal \u00e0 \u00ab\u00a01\u00a0\u00bb. Mais les diff\u00e9rents mod\u00e8les proposent un <em>co\u00fbt<\/em> diff\u00e9rent pour chaque montage. Par exemple, la <strong>distance de Levenshtein<\/strong> consid\u00e8re que le co\u00fbt de chaque modification est \u00e9gal \u00e0 1, alors que <strong>Needleman et Wunsch<\/strong> expliquent que le co\u00fbt de chaque modification d\u00e9pend de la nature de la modification (remplacer O par 0 a un co\u00fbt plus faible, puis remplacer T par M).  <\/p>\n\n<h6><strong>ii. Distance affine de l&rsquo;\u00e9cart  <\/strong><\/h6>\n\n<p>L&rsquo;algorithme de distance d&rsquo;\u00e9dition ne fonctionne pas bien avec les cha\u00eenes de caract\u00e8res qui ont des initiales ou des formes courtes. Par exemple, la distance d&rsquo;\u00e9dition peut classer <em>Jennifer Lily Stevens<\/em> et <em>Jen L. Stevens<\/em> comme non concordantes. C&rsquo;est l\u00e0 que la distance d&rsquo;\u00e9cart affine peut \u00eatre utile car elle introduit deux op\u00e9rations d&rsquo;\u00e9dition suppl\u00e9mentaires appel\u00e9es :  <\/p>\n\n<ul><li><strong>Espace ouvert : <\/strong>il s&rsquo;agit d&rsquo;ajouter un espace \u00e0 une cha\u00eene de caract\u00e8res o\u00f9 il n&rsquo;y en avait pas.  <\/li><li><strong>Prolonger l&rsquo;\u00e9cart :<\/strong> il s&rsquo;agit d&rsquo;ajouter un \u00e9cart (ou espace) \u00e0 une cha\u00eene de caract\u00e8res o\u00f9 il y avait d\u00e9j\u00e0 un \u00e9cart.  <\/li><\/ul>\n\n<p>Il est \u00e9vident que le co\u00fbt de l&rsquo;ouverture d&rsquo;une br\u00e8che (l\u00e0 o\u00f9 il n&rsquo;y en avait pas) est plus \u00e9lev\u00e9 que celui de l&rsquo;extension d&rsquo;une br\u00e8che (l\u00e0 o\u00f9 il y en avait d\u00e9j\u00e0 une). Cette variante de la distance d&rsquo;\u00e9dition permet \u00e9galement de calculer la similarit\u00e9 entre des cha\u00eenes de caract\u00e8res raccourcies.  <\/p>\n\n<h6><strong>iii. Distance Smith-Waterman  <\/strong><\/h6>\n\n<p>Il s&rsquo;agit d&rsquo;une autre variante de la distance d&rsquo;\u00e9dition et de la distance d&rsquo;\u00e9cart affine. Ce mod\u00e8le r\u00e9duit le co\u00fbt des non-concordances trouv\u00e9es au d\u00e9but ou \u00e0 la fin des cha\u00eenes de caract\u00e8res, puisque les pr\u00e9fixes et les suffixes sont souvent diff\u00e9rents. Par exemple, la correspondance de ces deux cha\u00eenes avec la distance S-W est plus logique : <em>Dr Jennifer Lily Stevens<\/em> et <em>Jennifer Lily Stevens, m\u00e9decin au centre m\u00e9dical Nat.<\/em><\/p>\n\n<h6>iv.  <strong>Distance de Jaro<\/strong> <\/h6>\n\n<p>Jaro a introduit une formule permettant de comparer la similitude entre le pr\u00e9nom et le nom de famille. L&rsquo;algorithme qui calcule la m\u00e9trique Jaro est le suivant :  <\/p>\n\n<ol><li>Calculez les longueurs des deux cha\u00eenes de caract\u00e8res \u00e0 comparer (S1 et S2).  <\/li><li>Identifiez le nombre de caract\u00e8res qui sont communs aux deux cha\u00eenes de caract\u00e8res (C).  <\/li><li>Comparez chaque caract\u00e8re de la premi\u00e8re cha\u00eene au caract\u00e8re correspondant de la seconde, et calculez chaque caract\u00e8re non correspondant comme une transposition (T).  <\/li><li>\u00c9valuer la m\u00e9trique Jaro comme :  <br\/>Jaro = 1\/3 * [ (C\/S1) + (C\/S2) + ((C-(T\/2))\/C)]  <\/li><\/ol>\n\n<p>Plus la valeur de la m\u00e9trique Jaro est faible, plus deux cha\u00eenes de caract\u00e8res sont similaires.  <\/p>\n\n<h6><strong>v. Distance N-gram.  <\/strong><\/h6>\n\n<p>Cet algorithme cr\u00e9e des sous-cha\u00eenes de <em>N lettres \u00e0 <\/em>partir des cha\u00eenes correspondantes, et compare les sous-cha\u00eenes, plut\u00f4t que le mot entier. Prenons l&rsquo;exemple des mots <em>Guide <\/em>et <em>Guode <\/em>. Pour calculer la distance de 2 grammes entre eux, les sous-cha\u00eenes suivantes sont cr\u00e9\u00e9es :  <\/p>\n\n<ul><li>Guide = {&lsquo;gu&rsquo;, &lsquo;ui&rsquo;, &lsquo;id&rsquo;, &lsquo;de&rsquo;}  <\/li><li>Guode = {&lsquo;gu&rsquo;, &lsquo;uo&rsquo;, &lsquo;od&rsquo;, &lsquo;de&rsquo;}  <\/li><\/ul>\n\n<p>La similarit\u00e9 est ensuite calcul\u00e9e en \u00e9valuant le nombre de sous-cha\u00eenes qui sont identiques. Cela montre \u00e9videmment si l&rsquo;utilisateur a voulu taper le m\u00eame mot et s&rsquo;il s&rsquo;agit simplement d&rsquo;une erreur typographique.  <\/p>\n\n<h5><strong>b. M\u00e9triques de similarit\u00e9 bas\u00e9es sur les jetons  <\/strong><\/h5>\n\n<p>Les mesures de similarit\u00e9 bas\u00e9es sur les tokens entrent en jeu lorsque vous souhaitez comparer des cha\u00eenes de caract\u00e8res r\u00e9arrang\u00e9es diff\u00e9remment, mais ayant la m\u00eame signification. Par exemple, le pr\u00e9nom et le nom de famille sont g\u00e9n\u00e9ralement r\u00e9arrang\u00e9s. Ainsi, <em>Jennifer Stevens<\/em> est la m\u00eame chose que <em>Stevens, Jennifer<\/em>. Mais la comparaison bas\u00e9e sur le caract\u00e8re ne sera pas efficace pour de tels sc\u00e9narios. C&rsquo;est l\u00e0 que nous utilisons les m\u00e9triques de similarit\u00e9 bas\u00e9es sur les jetons.  <\/p>\n\n<h6><strong>i. Cordes atomiques  <\/strong><\/h6>\n\n<p>La m\u00e9trique de similarit\u00e9 bas\u00e9e sur les jetons la plus courante est celle des cha\u00eenes atomiques. Dans cet algorithme, la cha\u00eene enti\u00e8re est divis\u00e9e en mots d\u00e9limit\u00e9s par des ponctuations, telles que l&rsquo;espace, la virgule, le point, etc. Et ensuite, les mots sont compar\u00e9s les uns aux autres, plut\u00f4t qu&rsquo;\u00e0 la cha\u00eene enti\u00e8re.  <\/p>\n\n<h6><strong>ii. WHIRL  <\/strong><\/h6>\n\n<p>L&rsquo;algorithme des cha\u00eenes atomiques n&rsquo;attribue aucun poids aux mots pendant la comparaison. De ce fait, <em>Docteur Jennifer Stevens<\/em>, et <em>Amanda Tates, Docteur<\/em> seront consid\u00e9r\u00e9s comme assez similaires (puisqu&rsquo;un seul mot correspond parfaitement). WHIRL corrige ce probl\u00e8me en attribuant un poids relativement faible aux mots couramment utilis\u00e9s et calcule la similarit\u00e9 en cons\u00e9quence.  <\/p>\n\n<h6><strong>iii. N-grams avec WHIRL  <\/strong><\/h6>\n\n<p>WHIRL n&rsquo;a pas pris en compte les fautes d&rsquo;orthographe dans son algorithme de comparaison de la similarit\u00e9. Il a \u00e9t\u00e9 \u00e9tendu pour inclure la technique de comparaison des n-grammes, de sorte que les n-grammes sont compar\u00e9s au lieu de mots entiers (ou tokens).  <\/p>\n\n<h5><strong>c. M\u00e9triques de similarit\u00e9 phon\u00e9tique  <\/strong><\/h5>\n\n<p>Les algorithmes bas\u00e9s sur les caract\u00e8res et les jetons ont \u00e9t\u00e9 con\u00e7us pour comparer des cha\u00eenes de caract\u00e8res qui refl\u00e8tent une similarit\u00e9 dans leur composition. D&rsquo;autre part, nous avons d&rsquo;autres cas o\u00f9 nous devons comparer des cordes qui ne se ressemblent pas du tout mais qui ont un son tr\u00e8s similaire lorsqu&rsquo;elles sont prononc\u00e9es. C&rsquo;est l\u00e0 que les mesures de similarit\u00e9 phon\u00e9tique sont utiles. Examinons les techniques les plus courantes de calcul des mesures de similarit\u00e9 phon\u00e9tique.  <\/p>\n\n<h6><strong>i. Soundex  <\/strong><\/h6>\n\n<p>Le Soundex est couramment utilis\u00e9 pour identifier des noms de famille dont l&rsquo;orthographe peut \u00eatre diff\u00e9rente, mais qui sont phon\u00e9tiquement similaires. Cela permet de d\u00e9tecter toute erreur typographique ou orthographique survenue lors de la saisie des donn\u00e9es. Mais l&rsquo;algorithme donne surtout de bons r\u00e9sultats avec les noms de famille anglais et n&rsquo;est pas un bon choix pour les noms d&rsquo;autres origines.  <\/p>\n\n<p>Les algorithmes de Soundex calculent un code pour chaque cha\u00eene de caract\u00e8res et comparent la similitude des codes de deux cha\u00eenes de caract\u00e8res distinctes. Le code Soundex est calcul\u00e9 comme suit :  <\/p>\n\n<ol><li>Gardez la premi\u00e8re lettre du nom.  <\/li><li>Ignorez toutes les occurrences de <em>w<\/em> et <em>h.<\/em><\/li><li>Les lettres <em>a, e, i, o, u<\/em> et <em>y<\/em> ne sont pas cod\u00e9es et ne sont conserv\u00e9es que temporairement (car elles seront compl\u00e8tement abandonn\u00e9es dans la derni\u00e8re \u00e9tape).<\/li><li>Remplacez les lettres suivantes par ces chiffres :  <ol><li><em>b, f, p, v<\/em> \u2192 1  <\/li><li><em>c, g, j, k, q, s, x, z \u2192 <\/em>2  <\/li><li><em>d, t \u2192 <\/em>3  <\/li><li><em>l \u2192 <\/em>4  <\/li><li><em>m, n<\/em> \u2192 5  <\/li><li><em>r \u2192 <\/em>6  <\/li><\/ol><\/li><li>Si deux chiffres identiques ou plus sont pr\u00e9sents dans le code, ne conservez que la premi\u00e8re occurrence et laissez tomber les autres.  <\/li><li>Laissez tomber ces lettres : <em>a, e, i, o, u,<\/em> et <em>y.<\/em> <\/li><li>Conservez la premi\u00e8re lettre (de l&rsquo;\u00e9tape A.) et les trois premiers chiffres cr\u00e9\u00e9s. S&rsquo;il y a moins de trois chiffres, ajoutez des z\u00e9ros.  <\/li><\/ol>\n\n<p>Par exemple, ces deux cha\u00eenes de caract\u00e8res <em>\u00ab\u00a0Fairdale\u00a0\u00bb <\/em>et <em>\u00ab\u00a0Faredayle\u00a0\u00bb <\/em>produisent le code Soundex <em>F634<\/em>, puisqu&rsquo;elles sont phon\u00e9tiquement identiques. Soundex s&rsquo;av\u00e8re \u00eatre pr\u00e9cis \u00e0 95,99% lors de la localisation de noms de famille \u00e0 consonance similaire.  <\/p>\n\n<h6><strong>ii. Syst\u00e8me d&rsquo;identification et de renseignement de l&rsquo;\u00c9tat de New York (NYSIIS)  <\/strong><\/h6>\n\n<p>Comme son nom l&rsquo;indique, cet algorithme a \u00e9t\u00e9 con\u00e7u en 1970 pour le syst\u00e8me d&rsquo;identification et de renseignement de l&rsquo;\u00c9tat de New York, qui fait d\u00e9sormais partie de la Division des services de justice p\u00e9nale de l&rsquo;\u00c9tat de New York. Son taux de pr\u00e9cision est de 98,72 % (2,7 % de plus que celui de Soundex) car il conserve les d\u00e9tails sur la position des voyelles dans le code (il les fait correspondre \u00e0 la lettre A). De plus, les consonnes sont mises en correspondance avec d&rsquo;autres alphabets et non avec des chiffres, ce qui cr\u00e9e un code alpha complet &#8211; sans aucun chiffre.  <\/p>\n\n<h6><strong>iii. M\u00e9taphone, Double M\u00e9taphone, et M\u00e9taphone 3  <\/strong><\/h6>\n\n<p>Lawrence Philips a d\u00e9velopp\u00e9 une meilleure version de Soundex, appel\u00e9e Metaphone, en 1990. Il a obtenu des r\u00e9sultats remarquables car il a pris en compte les d\u00e9tails des variations et des incoh\u00e9rences qui existent dans la prononciation et l&rsquo;orthographe anglaises. Dans ses algorithmes, il a utilis\u00e9 16 sons consonants qui sont utilis\u00e9s pour prononcer une grande biblioth\u00e8que de mots anglais et non anglais.  <\/p>\n\n<p>Plus tard, Philips a publi\u00e9 une version plus r\u00e9cente intitul\u00e9e Double Metaphone, dans laquelle il a \u00e9galement incorpor\u00e9 des d\u00e9tails sur un certain nombre de langues &#8211; en plus de l&rsquo;anglais. Enfin, en 2009, il a mis au point Metaphone 3, qui s&rsquo;est av\u00e9r\u00e9 exact \u00e0 99 % pour les mots anglais, les autres mots familiers aux Am\u00e9ricains et les pr\u00e9noms et noms de famille couramment utilis\u00e9s aux \u00c9tats-Unis.  <\/p>\n\n<h5><strong>d. M\u00e9triques de similarit\u00e9 num\u00e9rique  <\/strong><\/h5>\n\n<p>Il existe de nombreuses m\u00e9thodes pour calculer les diff\u00e9rences bas\u00e9es sur les cha\u00eenes de caract\u00e8res, mais pour les ensembles de donn\u00e9es num\u00e9riques, ces m\u00e9thodes sont limit\u00e9es. Les diff\u00e9rences num\u00e9riques simples sont g\u00e9n\u00e9ralement \u00e9valu\u00e9es en calculant la distance entre les valeurs, mais pour les calculs complexes, la distribution des donn\u00e9es num\u00e9riques peut \u00e9galement \u00eatre prise en compte. Des algorithmes tels que le Cosinus Similaire peuvent \u00e9galement \u00eatre utilis\u00e9s pour localiser les diff\u00e9rences num\u00e9riques.  <\/p>\n\n<h3><strong>Quelle technique de mise en correspondance des champs utiliser ?<\/strong> <\/h3>\n\n<p>Comme nous venons de le voir, le processus de recherche de similarit\u00e9 entre deux champs de donn\u00e9es est assez complexe. Nous avons examin\u00e9 plusieurs techniques de <a href=\"https:\/\/dataladder.com\/fr\/logiciel-de-correspondance-de-donnees-classe-parmi-les-meilleurs-de-sa-categorie-avec-une-precision-de-correspondance-de-96\/\">rapprochement des donn\u00e9es<\/a>, mais nous avons remarqu\u00e9 que chacune d&rsquo;entre elles r\u00e9sout un probl\u00e8me sp\u00e9cifique de d\u00e9duplication des donn\u00e9es, et qu&rsquo;il n&rsquo;existe pas une seule technique qui promet d&rsquo;\u00eatre performante pour tous les types et formats de donn\u00e9es.  <\/p>\n\n<p>Le choix d&rsquo;une technique d&rsquo;appariement d\u00e9pend fortement de ces facteurs :  <\/p>\n\n<ul><li><strong>La nature de vos donn\u00e9es &#8211; ou le type de donn\u00e9es.  <\/strong>Par exemple, la distance Jaro donne de bons r\u00e9sultats pour les cha\u00eenes de caract\u00e8res, mais la similarit\u00e9 cosinus est largement utilis\u00e9e pour les ensembles de donn\u00e9es num\u00e9riques.  <\/li><li><strong>Type de doublons qui sont pr\u00e9sents dans votre ensemble de donn\u00e9es.<\/strong>  Par exemple, les fautes de frappe et d&rsquo;orthographe sont mieux suivies \u00e0 l&rsquo;aide de la m\u00e9trique de similarit\u00e9 bas\u00e9e sur les caract\u00e8res, tandis que les champs format\u00e9s diff\u00e9remment sont mieux suivis \u00e0 l&rsquo;aide de la m\u00e9trique de similarit\u00e9 bas\u00e9e sur les jetons.  <\/li><li><strong>Domaine de vos donn\u00e9es.<\/strong>  Par exemple, si vous faites correspondre des noms ou des pr\u00e9noms anglais, Metaphone fonctionne bien, mais si votre ensemble de donn\u00e9es contient \u00e9galement des noms non anglais, il est plus judicieux d&rsquo;utiliser Double Metaphone ou Metaphone 3.  <\/li><\/ul>\n\n<h3><strong>Automatisation du processus de d\u00e9duplication<\/strong> <\/h3>\n\n<p>Comprendre les m\u00e9canismes internes des techniques de mise en correspondance des donn\u00e9es et choisir une technique appropri\u00e9e pour votre ensemble de donn\u00e9es est une t\u00e2che difficile. Dans de nombreuses situations, une seule technique n&rsquo;est pas suffisante, et une combinaison de techniques est utilis\u00e9e pour d\u00e9duire les donn\u00e9es avec pr\u00e9cision. C&rsquo;est pourquoi le besoin d&rsquo;outils num\u00e9riques augmente. Des outils qui non seulement optimisent le temps et l&rsquo;effort, mais aussi s\u00e9lectionnent intelligemment les techniques de rapprochement des donn\u00e9es en fonction de la nature de la structure et des valeurs de vos donn\u00e9es.  <\/p>\n\n<p><a href=\"https:\/\/dataladder.com\/fr\/produits\/datamatch-enterprise-classe-premier-produit-de-gestion-de-la-qualite-des-donnees\/\" target=\"_blank\" rel=\"noreferrer noopener\">DataMatch Enterprise<\/a> est l&rsquo;un de ces outils qui g\u00e8re l&rsquo;ensemble de votre processus de qualit\u00e9 des donn\u00e9es du d\u00e9but \u00e0 la fin. Il offre une gamme de modules qui prennent en charge les donn\u00e9es provenant de diff\u00e9rentes sources, permettent la mise en correspondance des champs et sugg\u00e8rent une combinaison de d\u00e9finitions de correspondance sp\u00e9cifiques \u00e0 vos donn\u00e9es. Vous pouvez utiliser les champs de correspondance et les algorithmes propos\u00e9s ou s\u00e9lectionner les v\u00f4tres. L&rsquo;outil peut \u00e9galement \u00eatre utilis\u00e9 pour \u00e9valuer la pr\u00e9cision de correspondance de diff\u00e9rentes techniques de correspondance sur votre ensemble de donn\u00e9es, et conclure quel algorithme est le plus performant.  <\/p>\n\n<p>Pour en savoir plus, inscrivez-vous \u00e0 un <a href=\"https:\/\/dataladder.com\/fr\/essai-gratuit-logiciel-de-comparaison-de-donnees\/\" target=\"_blank\" rel=\"noreferrer noopener\">essai gratuit<\/a> d\u00e8s aujourd&rsquo;hui ou organisez une d\u00e9monstration avec l&rsquo;un de nos experts, et commencez \u00e0 d\u00e9duire vos donn\u00e9es !  <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Selon Natik Ameen, expert en marketing chez Canz Marketing, les donn\u00e9es en double dans le CRM de l&rsquo;entreprise sont dues \u00e0 toute une s\u00e9rie de raisons : \u00ab\u00a0d&rsquo;une erreur humaine \u00e0 des clients fournissant des informations l\u00e9g\u00e8rement diff\u00e9rentes \u00e0 diff\u00e9rents moments dans la base de donn\u00e9es de l&rsquo;organisation. Par exemple, un consommateur inscrit son nom [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":60396,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","_links_to":"","_links_to_target":""},"categories":[],"tags":[697,776,673],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v19.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Pourquoi les doublons existent-ils et comment s&#039;en d\u00e9barrasser ? - Data Ladder<\/title>\n<meta name=\"description\" content=\"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C&#039;est la raison pour laquelle les donn\u00e9es en double existent.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\" \/>\n<meta property=\"og:locale\" content=\"fr_FR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Pourquoi les doublons existent-ils et comment s&#039;en d\u00e9barrasser ? - Data Ladder\" \/>\n<meta property=\"og:description\" content=\"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C&#039;est la raison pour laquelle les donn\u00e9es en double existent.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Ladder\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/web.facebook.com\/DataLadderSoftware\" \/>\n<meta property=\"article:published_time\" content=\"2021-11-15T11:23:47+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-12-21T13:52:49+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Why-duplicates-exist-and-how-to-get-rid-of-them.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"700\" \/>\n\t<meta property=\"og:image:height\" content=\"467\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"lbarrera\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"\u00c9crit par\" \/>\n\t<meta name=\"twitter:data1\" content=\"lbarrera\" \/>\n\t<meta name=\"twitter:label2\" content=\"Dur\u00e9e de lecture estim\u00e9e\" \/>\n\t<meta name=\"twitter:data2\" content=\"18 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\"},\"author\":{\"name\":\"lbarrera\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\"},\"headline\":\"Pourquoi les doublons existent-ils et comment s&rsquo;en d\u00e9barrasser ?\",\"datePublished\":\"2021-11-15T11:23:47+00:00\",\"dateModified\":\"2021-12-21T13:52:49+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\"},\"wordCount\":3826,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\"},\"keywords\":[\"duplication des donn\u00e9es\",\"nettoyage des donn\u00e9es\",\"Pr\u00e9paration des donn\u00e9es\"],\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\",\"url\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\",\"name\":\"Pourquoi les doublons existent-ils et comment s'en d\u00e9barrasser ? - Data Ladder\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#website\"},\"datePublished\":\"2021-11-15T11:23:47+00:00\",\"dateModified\":\"2021-12-21T13:52:49+00:00\",\"description\":\"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C'est la raison pour laquelle les donn\u00e9es en double existent.\",\"breadcrumb\":{\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#breadcrumb\"},\"inLanguage\":\"fr-FR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dataladder.com\/fr\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Pourquoi les doublons existent-ils et comment s&#8217;en d\u00e9barrasser ?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dataladder.com\/fr\/#website\",\"url\":\"https:\/\/dataladder.com\/fr\/\",\"name\":\"Data Ladder\",\"description\":\"Enterprise Data Profiling, Cleansing, and Matching\",\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dataladder.com\/fr\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"fr-FR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dataladder.com\/fr\/#organization\",\"name\":\"Data Ladder\",\"url\":\"https:\/\/dataladder.com\/fr\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"contentUrl\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"width\":413,\"height\":408,\"caption\":\"Data Ladder\"},\"image\":{\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/dataladder-llc\/\",\"https:\/\/web.facebook.com\/DataLadderSoftware\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\",\"name\":\"lbarrera\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"fr-FR\",\"@id\":\"https:\/\/dataladder.com\/fr\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"caption\":\"lbarrera\"},\"url\":\"https:\/\/dataladder.com\/fr\/author\/lbarrera\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Pourquoi les doublons existent-ils et comment s'en d\u00e9barrasser ? - Data Ladder","description":"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C'est la raison pour laquelle les donn\u00e9es en double existent.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/","og_locale":"fr_FR","og_type":"article","og_title":"Pourquoi les doublons existent-ils et comment s'en d\u00e9barrasser ? - Data Ladder","og_description":"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C'est la raison pour laquelle les donn\u00e9es en double existent.","og_url":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/","og_site_name":"Data Ladder","article_publisher":"https:\/\/web.facebook.com\/DataLadderSoftware","article_published_time":"2021-11-15T11:23:47+00:00","article_modified_time":"2021-12-21T13:52:49+00:00","og_image":[{"width":700,"height":467,"url":"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Why-duplicates-exist-and-how-to-get-rid-of-them.jpg","type":"image\/jpeg"}],"author":"lbarrera","twitter_card":"summary_large_image","twitter_misc":{"\u00c9crit par":"lbarrera","Dur\u00e9e de lecture estim\u00e9e":"18 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#article","isPartOf":{"@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/"},"author":{"name":"lbarrera","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b"},"headline":"Pourquoi les doublons existent-ils et comment s&rsquo;en d\u00e9barrasser ?","datePublished":"2021-11-15T11:23:47+00:00","dateModified":"2021-12-21T13:52:49+00:00","mainEntityOfPage":{"@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/"},"wordCount":3826,"commentCount":0,"publisher":{"@id":"https:\/\/dataladder.com\/fr\/#organization"},"keywords":["duplication des donn\u00e9es","nettoyage des donn\u00e9es","Pr\u00e9paration des donn\u00e9es"],"inLanguage":"fr-FR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/","url":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/","name":"Pourquoi les doublons existent-ils et comment s'en d\u00e9barrasser ? - Data Ladder","isPartOf":{"@id":"https:\/\/dataladder.com\/fr\/#website"},"datePublished":"2021-11-15T11:23:47+00:00","dateModified":"2021-12-21T13:52:49+00:00","description":"Les donn\u00e9es ont des repr\u00e9sentations multiples - ce qui signifie que les m\u00eames donn\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es de diff\u00e9rentes mani\u00e8res. C'est la raison pour laquelle les donn\u00e9es en double existent.","breadcrumb":{"@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#breadcrumb"},"inLanguage":"fr-FR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dataladder.com\/fr\/pourquoi-les-doublons-existent-ils-et-comment-sen-debarrasser\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dataladder.com\/fr\/"},{"@type":"ListItem","position":2,"name":"Pourquoi les doublons existent-ils et comment s&#8217;en d\u00e9barrasser ?"}]},{"@type":"WebSite","@id":"https:\/\/dataladder.com\/fr\/#website","url":"https:\/\/dataladder.com\/fr\/","name":"Data Ladder","description":"Enterprise Data Profiling, Cleansing, and Matching","publisher":{"@id":"https:\/\/dataladder.com\/fr\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dataladder.com\/fr\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"fr-FR"},{"@type":"Organization","@id":"https:\/\/dataladder.com\/fr\/#organization","name":"Data Ladder","url":"https:\/\/dataladder.com\/fr\/","logo":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/","url":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","contentUrl":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","width":413,"height":408,"caption":"Data Ladder"},"image":{"@id":"https:\/\/dataladder.com\/fr\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/dataladder-llc\/","https:\/\/web.facebook.com\/DataLadderSoftware"]},{"@type":"Person","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b","name":"lbarrera","image":{"@type":"ImageObject","inLanguage":"fr-FR","@id":"https:\/\/dataladder.com\/fr\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","caption":"lbarrera"},"url":"https:\/\/dataladder.com\/fr\/author\/lbarrera\/"}]}},"modified_by":null,"_links":{"self":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62243"}],"collection":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/comments?post=62243"}],"version-history":[{"count":1,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62243\/revisions"}],"predecessor-version":[{"id":62245,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/posts\/62243\/revisions\/62245"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/media\/60396"}],"wp:attachment":[{"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/media?parent=62243"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/categories?post=62243"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dataladder.com\/fr\/wp-json\/wp\/v2\/tags?post=62243"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}