{"id":62227,"date":"2021-11-15T11:23:47","date_gmt":"2021-11-15T11:23:47","guid":{"rendered":"https:\/\/dataladder.com\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/"},"modified":"2021-12-22T10:56:02","modified_gmt":"2021-12-22T10:56:02","slug":"por-que-existen-los-duplicados-y-como-deshacerse-de-ellos","status":"publish","type":"post","link":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/","title":{"rendered":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos?"},"content":{"rendered":"\n<p>Seg\u00fan Natik Ameen, experto en marketing de <a href=\"https:\/\/www.canzmarketing.com\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">Canz Marketing<\/a>, la duplicaci\u00f3n de datos en el CRM de la empresa se debe a una serie de razones:  <\/p>\n\n<blockquote class=\"wp-block-quote\"><p>\u00ab<em>desde un error humano hasta que los clientes proporcionen informaci\u00f3n ligeramente diferente en distintos momentos de la base de datos de la organizaci\u00f3n. Por ejemplo, un consumidor pone su nombre como Jonathan Smith en un formulario y Jon Smith en el otro. El reto se ve agravado por una base de datos cada vez mayor. A menudo es cada vez m\u00e1s dif\u00edcil para los administradores hacer un seguimiento de la base de datos y tambi\u00e9n de los datos relevantes. Cada vez es m\u00e1s dif\u00edcil garantizar que la base de datos de la organizaci\u00f3n sea precisa<\/em>\u00ab.  <\/p><\/blockquote>\n\n<p><a href=\"https:\/\/dataladder.com\/es\/software-de-deduplicacion-de-datos-utilice-reglas-integradas-y-personalizadas-para-la-deduplicacion-de-crm\/\">La deduplicaci\u00f3n de datos<\/a> se produce cuando se almacena informaci\u00f3n sobre la misma entidad varias veces, en lugar de actualizar un \u00fanico registro. En esta gu\u00eda, discutiremos algunos conceptos b\u00e1sicos relacionados con la duplicaci\u00f3n de datos y una lista de t\u00e9cnicas y algoritmos que se utilizan habitualmente para solucionarla.  <\/p>\n\n<h3>\u00bfPor qu\u00e9 existen los duplicados?  <\/h3>\n\n<p>Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la principal raz\u00f3n por la que existen registros duplicados en una base de datos. Tanto si los registros se fusionan a partir de fuentes de datos independientes, como si se introducen en una \u00fanica base de datos a lo largo del tiempo, ambos conducen al complejo problema de la duplicaci\u00f3n de datos.  <\/p>\n\n<p>Lo ideal es que cada registro de una base de datos represente una \u00fanica entidad. Pero debido a una serie de razones (las m\u00e1s comunes se mencionan a continuaci\u00f3n), observamos que la informaci\u00f3n de una entidad abarca varios registros.  <\/p>\n\n<h4><strong>1. Falta de identificadores \u00fanicos  <\/strong><\/h4>\n\n<p>Tener identificadores \u00fanicos en su base de datos es la mejor manera de evitar el almacenamiento de duplicados. Un identificador \u00fanico es un campo de datos que siempre es \u00fanico para una entidad (por ejemplo, el <em>n\u00famero de la Seguridad Social (SSN<\/em> ) para los datos de los clientes, <em>el n\u00famero de pieza del fabricante (MPN) <\/em> para los datos de los productos, etc.). En cada nueva entrada de datos, puede comprobar si existe un registro con el mismo identificador \u00fanico. Y si existe, puede simplemente actualizarlo o fusionarlo, y evitar almacenar un nuevo registro para la misma entidad. Pero si su base de datos no contiene ese identificador \u00fanico, el proceso de relacionar las nuevas entidades entrantes con las existentes se convierte en una tarea compleja.  <\/p>\n\n<h4><strong>2. Falta de controles de validaci\u00f3n y restricciones de integridad  <\/strong><\/h4>\n\n<p>Incluso con la presencia de identificadores \u00fanicos, puede terminar con duplicados en su base de datos. Esto ocurre cuando los identificadores \u00fanicos no se ajustan a patrones v\u00e1lidos (por ejemplo, <em>AAA-GG-SSSS<\/em> para <em>el SSN<\/em>), o no tienen restricciones estrictas de integridad (por ejemplo, <em>l\u00edmite de 11 caracteres<\/em> para <em>el SSN<\/em>).  <\/p>\n\n<h4><strong>3. Errores en la introducci\u00f3n de datos  <\/strong><\/h4>\n\n<p>La tasa de error en la introducci\u00f3n de datos es de <a href=\"https:\/\/www.ocrolus.com\/blog\/human-error-8-eye-popping-sets-of-stats-and-examples\/\" target=\"_blank\" rel=\"noreferrer noopener nofollow\">400 por cada 10.000 entradas<\/a>, lo cual es una cifra importante. As\u00ed, incluso con la presencia de identificadores \u00fanicos, comprobaciones de validaci\u00f3n y restricciones de integridad, existe la posibilidad de que el error humano intervenga y permita la existencia de duplicados en su base de datos.  <\/p>\n\n<h3><strong>Dificultad en la comparaci\u00f3n de datos &#8211; Heterogeneidad de los datos<\/strong> <\/h3>\n\n<p>Para deshacerse de los duplicados en su base de datos, debe comparar los registros y evaluar cu\u00e1les pertenecen a la misma entidad. Pero cuando se comparan los registros de datos (ya sea en la misma base de datos o pertenecientes a bases de datos diferentes), se observa que tienen algunas diferencias sistem\u00e1ticas, lo que dificulta su comparaci\u00f3n exacta. Esto suele conocerse como<strong> heterogeneidad de los datos<\/strong>.  <\/p>\n\n<p>En t\u00e9rminos generales, se pueden clasificar los datos heterog\u00e9neos como:  <\/p>\n\n<h4><strong>1. Heterogeneidad estructural  <\/strong><\/h4>\n\n<p>Este tipo de diferencia se produce cuando los campos de diferentes bases de datos representan la misma informaci\u00f3n de manera estructuralmente diferente. Por ejemplo, una base de datos podr\u00eda almacenar el nombre de un contacto como <em>Nombre de Contacto<\/em>, mientras que en una segunda base de datos, se almacena en m\u00faltiples columnas como, <em>Saludo,<\/em> <em>Nombre<\/em>, <em>Segundo Nombre<\/em> y, <em>Apellido.<\/em> <\/p>\n\n<h4><strong>2. Heterogeneidad l\u00e9xica  <\/strong><\/h4>\n\n<p>Este tipo de diferencia se produce cuando los campos de diferentes bases de datos son estructuralmente iguales, pero representan la misma informaci\u00f3n de forma sint\u00f3nica diferente. Por ejemplo, dos o m\u00e1s bases de datos pueden tener el mismo campo <em>Direcci\u00f3n <\/em>, pero una puede tener un valor de direcci\u00f3n <em>32 E St. 4<\/em>, mientras que la otra puede tener <em>32 East, 4<\/em><em>\n  <sup>th<\/sup>\n<\/em><em> Street<\/em>.  <\/p>\n\n<h3><strong>Proceso de deduplicaci\u00f3n de datos<\/strong> <\/h3>\n\n<p>En pocas palabras, el proceso de deduplicaci\u00f3n implica:  <\/p>\n\n<ol><li><strong>Preparaci\u00f3n de los datos mediante la normalizaci\u00f3n de los campos<\/strong> en todas las bases de datos<\/li><li><strong>Asignaci\u00f3n de los campos<\/strong> que representan la misma informaci\u00f3n  <\/li><li><strong>Elecci\u00f3n de una t\u00e9cnica de comparaci\u00f3n de campos adecuada<\/strong> (en funci\u00f3n de la naturaleza de los datos) y, a continuaci\u00f3n, c\u00e1lculo de la similitud entre los campos de datos  <\/li><\/ol>\n\n<p>En las pr\u00f3ximas secciones, entraremos en un poco m\u00e1s de detalle de los pasos mencionados anteriormente.  <\/p>\n\n<h4><strong>1. Preparaci\u00f3n de los datos  <\/strong><\/h4>\n\n<p>El primer paso en el proceso es garantizar la uniformidad en todas las bases de datos en t\u00e9rminos de estructura de datos y campos. Este proceso reduce la heterogeneidad estructural de las bases de datos, al menos hasta cierto punto. Se trata de seguir dos pasos:<\/p>\n\n<h5><strong>a. <a href=\"https:\/\/dataladder.com\/es\/software-de-limpieza-de-datos-herramienta-de-limpieza-de-datos-crm-rapida-y-rentable\/\">Depuraci\u00f3n<\/a> y <a href=\"https:\/\/dataladder.com\/es\/software-de-estandarizacion-de-datos-herramienta-de-estandarizacion-de-datos-rapida-y-rentable\/\">normalizaci\u00f3n de<\/a> <a href=\"https:\/\/dataladder.com\/es\/software-de-limpieza-de-datos-herramienta-de-limpieza-de-datos-crm-rapida-y-rentable\/\">datos<\/a>  <\/strong><\/h5>\n\n<p>Se trata de eliminar cualquier error o variaci\u00f3n en los formatos y tipos de datos de los valores, o en la estructura de las bases de datos. Esto puede lograrse mediante:  <\/p>\n\n<ol><li><strong>An\u00e1lisis de cadenas largas<\/strong> para identificar componentes de datos importantes. Un ejemplo de esto es cuando se tiene toda la direcci\u00f3n en un solo campo. El an\u00e1lisis del campo <em>Direcci\u00f3n<\/em> le proporcionar\u00e1 sus componentes de datos subsiguientes, como el <em>nombre de la calle<\/em>, el <em>n\u00famero de la calle<\/em>, el <em>c\u00f3digo postal<\/em>, <em>la ciudad<\/em>, el <em>estado<\/em> y el <em>pa\u00eds<\/em>. La b\u00fasqueda de coincidencias se hace m\u00e1s f\u00e1cil en estos elementos analizados, en comparaci\u00f3n con la b\u00fasqueda de coincidencias en todo el campo.  <\/li><li><strong>Transformaci\u00f3n de los valores de los datos<\/strong> para conseguir tipos de datos similares, convenciones de nomenclatura, etc. Esto puede hacerse convirtiendo los tipos de datos (por ejemplo, de cadena a n\u00famero), renombrando los nombres de las columnas o fusionando los campos.  <\/li><li><strong>Estandarizaci\u00f3n de patrones<\/strong> para todos los valores contenidos en un campo de datos, de modo que se espera que cada valor siga el patr\u00f3n especificado. Un ejemplo de esto es cuando se estandariza el patr\u00f3n del campo <em>N\u00famero de tel\u00e9fono<\/em> a <em>XXX-XXX-XXXX<\/em>. De este modo, las comparaciones y los cotejos son m\u00e1s f\u00e1ciles y precisos.  <\/li><\/ol>\n\n<h5><strong>b. Asignaci\u00f3n de campos de datos  <\/strong><\/h5>\n\n<p>Una vez estandarizadas las bases de datos (en la medida de lo posible), el siguiente paso es asignar los campos que representan la misma informaci\u00f3n. Esto se hace manualmente (por ejemplo,  <em>Dirigirse<\/em> a  <em>Direcci\u00f3n<\/em>,  <em>N\u00famero<\/em> de tel\u00e9fono para  <em>N\u00famero de tel\u00e9fono<\/em>, etc.), o bien ejecutar comprobaciones para identificar los valores de los campos que se solapan con los de la otra base de datos. Para conjuntos de datos m\u00e1s peque\u00f1os, la primera t\u00e9cnica es \u00fatil, pero si tiene conjuntos de datos grandes en los que las columnas tienen nombres diferentes, la segunda es bastante \u00fatil.  <\/p>\n\n<h4>2. C\u00e1lculo de la similitud mediante t\u00e9cnicas de comparaci\u00f3n de campos  <\/h4>\n\n<p>Una vez hecho esto, ahora los datos est\u00e1n en una forma relativamente mejor para comparar e identificar duplicados. Pero siguen existiendo errores ortogr\u00e1ficos, errores tipogr\u00e1ficos humanos y variaciones convencionales. Por ello, las t\u00e9cnicas de comparaci\u00f3n exacta no son \u00fatiles en este caso, y necesitamos t\u00e9cnicas que tengan en cuenta estos aspectos de los datos al calcular las puntuaciones para evaluar la similitud entre los valores individuales y, por tanto, el registro completo.  <\/p>\n\n<h5><strong>a. M\u00e9tricas de similitud basadas en los caracteres  <\/strong><\/h5>\n\n<p>Dado que la mayor\u00eda de los errores tipogr\u00e1ficos se producen en las cadenas, en esta secci\u00f3n veremos las t\u00e9cnicas m\u00e1s comunes para cotejar la similitud entre cadenas.  <\/p>\n\n<h6>i.  <strong>Editar la distancia<\/strong> <\/h6>\n\n<p>Este algoritmo calcula la distancia entre dos cadenas, computada car\u00e1cter por car\u00e1cter. La distancia se calcula contando el n\u00famero de ediciones necesarias para transformar la primera cadena en la segunda. Y luego se define un umbral que clasifica dos cadenas como coincidentes (si la distancia <em> &lt; umbral<\/em>) o no coincidentes (si <em>la distancia &gt; umbral<\/em>). Hay tres tipos de ediciones permitidas para calcular la distancia: <em>insertar <\/em>un car\u00e1cter en la cadena, <em>eliminar <\/em>un car\u00e1cter de una cadena, <em>sustituir <\/em>un car\u00e1cter por otro en la cadena.  <\/p>\n\n<p>Normalmente, el recuento de una operaci\u00f3n de edici\u00f3n se considera \u00ab1\u00bb. Pero los distintos modelos proponen un <em>coste<\/em> diferente de cada edici\u00f3n. Por ejemplo, la <strong>distancia Levenshtein<\/strong> considera el coste de cada edici\u00f3n como 1, mientras que <strong>Needleman y Wunsch<\/strong> explicaron que el coste de cada edici\u00f3n depende de la naturaleza de la misma (sustituir O por 0 tiene un coste menor, luego sustituir T por M).  <\/p>\n\n<h6><strong>ii. Distancia de separaci\u00f3n af\u00edn  <\/strong><\/h6>\n\n<p>El algoritmo de la distancia de edici\u00f3n no funciona bien con cadenas que tienen iniciales o formas cortas. Por ejemplo, la distancia de edici\u00f3n podr\u00eda clasificar a <em>Jennifer Lily Stevens<\/em> y <em>Jen L. Stevens<\/em> como no coincidentes. Aqu\u00ed es donde la distancia af\u00edn a la brecha puede ser \u00fatil, ya que introduce dos operaciones m\u00e1s de edici\u00f3n llamadas:  <\/p>\n\n<ul><li><strong>Hueco abierto: <\/strong>se refiere a a\u00f1adir un hueco (o espacio) a una cadena donde no lo hab\u00eda.  <\/li><li><strong>Extender hueco:<\/strong> se refiere a a\u00f1adir un hueco (o espacio) a una cadena donde ya hab\u00eda un hueco.  <\/li><\/ul>\n\n<p>Es obvio que el coste de abrir un hueco (donde no lo hab\u00eda) es mayor que el de ampliar un hueco (donde ya lo hab\u00eda). Esta variaci\u00f3n de la distancia de edici\u00f3n permite calcular tambi\u00e9n la similitud entre cadenas acortadas.  <\/p>\n\n<h6><strong>iii. Distancia Smith-Waterman  <\/strong><\/h6>\n\n<p>Se trata de otra variaci\u00f3n de la distancia de edici\u00f3n y de la distancia de separaci\u00f3n af\u00edn. Este modelo reduce el coste de las discordancias encontradas al principio o al final de las cadenas, ya que los prefijos y los sufijos suelen ser diferentes. Por ejemplo, hacer coincidir estas dos cadenas con la distancia S-W tiene m\u00e1s sentido: <em>Dra. Jennifer Lily Stevens<\/em> y <em>Jennifer Lily Stevens, doctora del Centro M\u00e9dico Nat.<\/em><\/p>\n\n<h6>iv.  <strong>Distancia de Jaro<\/strong> <\/h6>\n\n<p>Jaro introdujo una f\u00f3rmula para comparar la similitud entre el nombre y el apellido. El algoritmo que calcula la m\u00e9trica Jaro es el siguiente:  <\/p>\n\n<ol><li>Calcula las longitudes de las dos cadenas a comparar (S1 y S2).  <\/li><li>Identifica el n\u00famero de caracteres que son comunes en ambas cadenas (C).  <\/li><li>Compare cada car\u00e1cter de la primera cadena con el car\u00e1cter correspondiente de la segunda, y calcule cada car\u00e1cter no coincidente como una transposici\u00f3n (T).  <\/li><li>Evaluar la m\u00e9trica de Jaro como:  <br\/>Jaro = 1\/3 * [ (C\/S1) + (C\/S2) + ((C-(T\/2))\/C) ]  <\/li><\/ol>\n\n<p>Cuanto menor sea el valor de la m\u00e9trica de Jaro, m\u00e1s similares son dos cadenas.  <\/p>\n\n<h6><strong>v. Distancia N-grama.  <\/strong><\/h6>\n\n<p>Este algoritmo crea subcadenas <em>de letras N <\/em>a partir de las cadenas coincidentes, y compara las subcadenas, en lugar de la palabra completa. Tomemos como ejemplo las palabras <em>Gu\u00eda <\/em>y <em>Guode <\/em>. Para calcular la distancia de 2 gramos entre ellos, se crean las siguientes subcadenas:  <\/p>\n\n<ul><li>Gu\u00eda = {&#8216;gu&#8217;, &#8216;ui&#8217;, &#8216;id&#8217;, &#8216;de&#8217;}  <\/li><li>Guode = {&#8216;gu&#8217;, &#8216;uo&#8217;, &#8216;od&#8217;, &#8216;de&#8217;}  <\/li><\/ul>\n\n<p>La similitud se calcula entonces evaluando el n\u00famero de subcadenas que son iguales. Esto muestra evidentemente si el usuario quiso escribir la misma palabra y si es s\u00f3lo un error tipogr\u00e1fico.  <\/p>\n\n<h5><strong>b. M\u00e9trica de similitud basada en tokens  <\/strong><\/h5>\n\n<p>Las m\u00e9tricas de similitud basadas en tokens entran en juego cuando se quieren comparar cadenas que se reordenan de forma diferente, pero que significan lo mismo. Por ejemplo, el nombre y los apellidos se suelen reordenar, como <em>Jennifer Stevens<\/em> es lo mismo que <em>Stevens, Jennifer<\/em>. Pero la comparaci\u00f3n basada en el car\u00e1cter no ser\u00e1 efectiva para tales escenarios. Aqu\u00ed es donde utilizamos la m\u00e9trica de similitud basada en tokens.  <\/p>\n\n<h6><strong>i. Cadenas at\u00f3micas  <\/strong><\/h6>\n\n<p>La m\u00e9trica de similitud basada en tokens m\u00e1s com\u00fan es la de cadenas at\u00f3micas. En este algoritmo, toda la cadena se divide en palabras delimitadas por puntuaciones, como espacio, coma, punto, etc. Y entonces las palabras se comparan entre s\u00ed, en lugar de la cadena completa.  <\/p>\n\n<h6><strong>ii. WHIRL  <\/strong><\/h6>\n\n<p>El algoritmo de cadenas at\u00f3micas no asigna ning\u00fan peso a las palabras durante la comparaci\u00f3n. Debido a esto, la <em>Doctora Jennifer Stevens<\/em>, y <em>Amanda Tates, Doctora<\/em> ser\u00e1n consideradas algo similares (ya que una palabra es una coincidencia completa). WHIRL soluciona este problema asignando pesos relativamente bajos a las palabras de uso com\u00fan y calculando la similitud en consecuencia.  <\/p>\n\n<h6><strong>iii. N-gramas con WHIRL  <\/strong><\/h6>\n\n<p>WHIRL no tuvo en cuenta los errores ortogr\u00e1ficos en su algoritmo de comparaci\u00f3n de similitudes. Se ampli\u00f3 para incluir la t\u00e9cnica de comparaci\u00f3n de N-gramas, de modo que se compararon n-gramas en lugar de palabras enteras (o tokens).  <\/p>\n\n<h5><strong>c. M\u00e9tricas de similitud fon\u00e9tica  <\/strong><\/h5>\n\n<p>Los algoritmos basados en caracteres y en tokens se dise\u00f1aron para comparar cadenas que reflejaban similitud en su composici\u00f3n de caracteres. Por otro lado, tenemos otros casos en los que necesitamos comparar cuerdas que pueden no parecerse en absoluto pero que tienen un sonido muy similar cuando se pronuncian. Aqu\u00ed es donde la m\u00e9trica de la similitud fon\u00e9tica resulta \u00fatil. Veamos las t\u00e9cnicas m\u00e1s comunes para calcular las m\u00e9tricas de similitud fon\u00e9tica.  <\/p>\n\n<h6><strong>i. Soundex  <\/strong><\/h6>\n\n<p>El Soundex se utiliza habitualmente para identificar apellidos que pueden tener una ortograf\u00eda diferente, pero que son fon\u00e9ticamente similares. Esto ayuda a detectar cualquier error tipogr\u00e1fico u ortogr\u00e1fico que se haya producido al introducir los datos. Pero el algoritmo funciona bien sobre todo con apellidos ingleses y no es una buena opci\u00f3n para nombres de otros or\u00edgenes.  <\/p>\n\n<p>Los algoritmos Soundex calculan un c\u00f3digo para cada cadena y comparan la similitud de los c\u00f3digos de dos cadenas distintas. El c\u00f3digo Soundex se calcula como:  <\/p>\n\n<ol><li>Mantenga la primera letra del nombre.  <\/li><li>Ignora todas las apariciones de <em>w<\/em> y <em>h.<\/em><\/li><li>Las letras <em>a, e, i, o, u<\/em> e <em>y<\/em> no est\u00e1n codificadas y s\u00f3lo se mantienen temporalmente (ya que se eliminar\u00e1n por completo en el \u00faltimo paso).<\/li><li>Sustituye las siguientes letras por estos d\u00edgitos:  <ol><li><em>b, f, p, v<\/em> \u2192 1  <\/li><li><em>c, g, j, k, q, s, x, z <\/em>\u2192 2  <\/li><li><em>d, t <\/em>\u2192 3  <\/li><li><em>l <\/em>\u2192 4  <\/li><li><em>m, n<\/em> \u2192 5  <\/li><li><em>r <\/em>\u2192 6  <\/li><\/ol><\/li><li>Si hay dos o m\u00e1s d\u00edgitos id\u00e9nticos en el c\u00f3digo, s\u00f3lo se mantiene la primera ocurrencia y se elimina el resto.  <\/li><li>Tira estas letras: <em>a, e, i, o, u<\/em> e <em>y.<\/em> <\/li><li>Mantenga la primera letra (del paso A.) y los tres primeros d\u00edgitos creados. Si hay menos de tres d\u00edgitos, a\u00f1ada ceros.  <\/li><\/ol>\n\n<p>Por ejemplo, estas dos cadenas <em>\u00abFairdale\u00bb <\/em>y <em>\u00abFaredayle <\/em>\u00bb tienen el c\u00f3digo Soundex <em>F634<\/em>, ya que son fon\u00e9ticamente iguales. Soundex ha demostrado tener una precisi\u00f3n del 95,99% a la hora de localizar apellidos de sonido similar.  <\/p>\n\n<h6><strong>ii. Sistema de Identificaci\u00f3n e Inteligencia del Estado de Nueva York (NYSIIS)  <\/strong><\/h6>\n\n<p>Como su nombre indica, este algoritmo se ide\u00f3 para el Sistema de Identificaci\u00f3n e Inteligencia del Estado de Nueva York en 1970, que ahora forma parte de la Divisi\u00f3n de Servicios de Justicia Penal del Estado de Nueva York. Su \u00edndice de precisi\u00f3n es del 98,72% (un 2,7% m\u00e1s que el de Soundex), ya que conserva los detalles sobre la posici\u00f3n de las vocales en el c\u00f3digo (las asigna a la letra A). Adem\u00e1s, las consonantes se asignan a otros alfabetos y no a n\u00fameros, creando as\u00ed un c\u00f3digo alfa completo, sin n\u00fameros.  <\/p>\n\n<h6><strong>iii. Met\u00e1fono, Met\u00e1fono doble y Met\u00e1fono 3  <\/strong><\/h6>\n\n<p>Lawrence Philips desarroll\u00f3 una versi\u00f3n mejorada de Soundex, llamada Metaphone, en 1990. Tuvo un rendimiento notable al considerar los detalles de las variaciones e incoherencias que hay en la pronunciaci\u00f3n y la ortograf\u00eda inglesas. En sus algoritmos, utiliz\u00f3 16 sonidos conson\u00e1nticos que se emplean en la pronunciaci\u00f3n de una gran biblioteca de palabras inglesas y no inglesas.  <\/p>\n\n<p>M\u00e1s tarde, Philips public\u00f3 una versi\u00f3n m\u00e1s reciente, llamada Double Metaphone, en la que tambi\u00e9n incorpor\u00f3 detalles de varios idiomas, adem\u00e1s del ingl\u00e9s. Finalmente, en 2009, desarroll\u00f3 Metaphone 3, que demostr\u00f3 tener una precisi\u00f3n del 99% para las palabras en ingl\u00e9s, otras palabras familiares para los estadounidenses y los nombres y apellidos de uso com\u00fan en Estados Unidos.  <\/p>\n\n<h5><strong>d. M\u00e9tricas de similitud num\u00e9rica  <\/strong><\/h5>\n\n<p>Existen muchos m\u00e9todos para calcular las diferencias basadas en cadenas, pero para los conjuntos de datos num\u00e9ricos, estos m\u00e9todos son limitados. Las diferencias num\u00e9ricas simples suelen evaluarse calculando la distancia entre los valores, pero para el c\u00e1lculo complejo tambi\u00e9n puede considerarse la distribuci\u00f3n de los datos num\u00e9ricos. Tambi\u00e9n se pueden utilizar algoritmos como el de la similitud del coseno para localizar diferencias num\u00e9ricas.  <\/p>\n\n<h3><strong>\u00bfQu\u00e9 t\u00e9cnica de cotejo de campos utilizar?<\/strong> <\/h3>\n\n<p>Como acabamos de ver, el proceso de b\u00fasqueda de similitudes entre dos campos de datos es bastante complejo. Hemos revisado m\u00faltiples t\u00e9cnicas de <a href=\"https:\/\/dataladder.com\/es\/software-de-comparacion-de-datos-calificado-como-el-mejor-de-su-clase-con-una-precision-de-coincidencia-del-96\/\">emparejamiento de datos<\/a>, pero nos hemos dado cuenta de que cada una de ellas resuelve un problema espec\u00edfico de deduplicaci\u00f3n de datos, y no hay una sola t\u00e9cnica que prometa funcionar bien para todos los tipos y formatos de datos.  <\/p>\n\n<p>La selecci\u00f3n de una t\u00e9cnica de concordancia depende en gran medida de estos factores:  <\/p>\n\n<ul><li><strong>Naturaleza de sus datos &#8211; o el tipo de datos.  <\/strong>Por ejemplo, la distancia Jaro funciona bien para las cadenas, pero la similitud del coseno se utiliza ampliamente para los conjuntos de datos num\u00e9ricos.  <\/li><li><strong>Tipo de duplicados que est\u00e1n presentes en su conjunto de datos.<\/strong>  Por ejemplo, las erratas y las faltas de ortograf\u00eda se detectan mejor utilizando m\u00e9tricas de similitud basadas en los caracteres, mientras que los campos con formatos diferentes se ajustan mejor utilizando m\u00e9tricas de similitud basadas en los tokens.  <\/li><li><strong>Dominio de sus datos.<\/strong>  Por ejemplo, si est\u00e1 cotejando nombres o apellidos ingleses, entonces Metaphone funciona bien, pero si tambi\u00e9n hay nombres no ingleses en su conjunto de datos, entonces tiene m\u00e1s sentido utilizar Metaphone doble o Metaphone 3.  <\/li><\/ul>\n\n<h3><strong>Automatizaci\u00f3n del proceso de deduplicaci\u00f3n<\/strong> <\/h3>\n\n<p>Entender los entresijos de las t\u00e9cnicas de cotejo de datos y elegir una adecuada para su conjunto de datos es una tarea dif\u00edcil. En muchas situaciones, una sola t\u00e9cnica no es suficiente, y se utiliza una combinaci\u00f3n de t\u00e9cnicas para desduplicar los datos con precisi\u00f3n. Por ello, la necesidad de herramientas digitales es cada vez mayor. Herramientas que no s\u00f3lo optimizan el tiempo y el esfuerzo, sino que tambi\u00e9n seleccionan de forma inteligente las t\u00e9cnicas de cotejo de datos en funci\u00f3n de la naturaleza de su estructura y valores.  <\/p>\n\n<p><a href=\"https:\/\/dataladder.com\/es\/productos\/datamatch-enterprise-calificado-como-el-producto-numero-uno-para-la-gestion-de-la-calidad-de-los-datos\/\" target=\"_blank\" rel=\"noreferrer noopener\">DataMatch Enterprise<\/a> es una de esas herramientas que se encarga de todo el proceso de calidad de datos desde el principio hasta el final. Ofrece una serie de m\u00f3dulos que admiten datos procedentes de diferentes fuentes, permiten la asignaci\u00f3n de campos y sugieren una combinaci\u00f3n de definiciones de coincidencias espec\u00edficas para sus datos. Puede utilizar los campos y algoritmos de coincidencia sugeridos o anularlos seleccionando los suyos propios. La herramienta tambi\u00e9n puede utilizarse para evaluar la precisi\u00f3n de las coincidencias de diferentes t\u00e9cnicas de coincidencia en su conjunto de datos, y concluir qu\u00e9 algoritmo tiene un buen rendimiento.  <\/p>\n\n<p>Para obtener m\u00e1s informaci\u00f3n, reg\u00edstrese hoy mismo <a href=\"https:\/\/dataladder.com\/es\/prueba-gratuita-software-de-cotejo-de-datos\/\" target=\"_blank\" rel=\"noreferrer noopener\">para obtener una prueba<\/a> gratuita o concierte una demostraci\u00f3n con uno de nuestros expertos, y comience a desduplicar sus datos.  <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Seg\u00fan Natik Ameen, experto en marketing de Canz Marketing, la duplicaci\u00f3n de datos en el CRM de la empresa se debe a una serie de razones: \u00abdesde un error humano hasta que los clientes proporcionen informaci\u00f3n ligeramente diferente en distintos momentos de la base de datos de la organizaci\u00f3n. Por ejemplo, un consumidor pone su [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":60398,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","_links_to":"","_links_to_target":""},"categories":[],"tags":[691,774,670],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v19.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder<\/title>\n<meta name=\"description\" content=\"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder\" \/>\n<meta property=\"og:description\" content=\"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Ladder\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/web.facebook.com\/DataLadderSoftware\" \/>\n<meta property=\"article:published_time\" content=\"2021-11-15T11:23:47+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-12-22T10:56:02+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Why-duplicates-exist-and-how-to-get-rid-of-them.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"700\" \/>\n\t<meta property=\"og:image:height\" content=\"467\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"lbarrera\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"lbarrera\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"17 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\"},\"author\":{\"name\":\"lbarrera\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\"},\"headline\":\"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos?\",\"datePublished\":\"2021-11-15T11:23:47+00:00\",\"dateModified\":\"2021-12-22T10:56:02+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\"},\"wordCount\":3416,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"keywords\":[\"duplicaci\u00f3n de datos\",\"limpieza de datos\",\"Preparaci\u00f3n de datos\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\",\"url\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\",\"name\":\"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/#website\"},\"datePublished\":\"2021-11-15T11:23:47+00:00\",\"dateModified\":\"2021-12-22T10:56:02+00:00\",\"description\":\"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.\",\"breadcrumb\":{\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dataladder.com\/es\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos?\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dataladder.com\/es\/#website\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"name\":\"Data Ladder\",\"description\":\"Enterprise Data Profiling, Cleansing, and Matching\",\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dataladder.com\/es\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dataladder.com\/es\/#organization\",\"name\":\"Data Ladder\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"contentUrl\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"width\":413,\"height\":408,\"caption\":\"Data Ladder\"},\"image\":{\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/dataladder-llc\/\",\"https:\/\/web.facebook.com\/DataLadderSoftware\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\",\"name\":\"lbarrera\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"caption\":\"lbarrera\"},\"url\":\"https:\/\/dataladder.com\/es\/author\/lbarrera\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder","description":"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/","og_locale":"es_ES","og_type":"article","og_title":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder","og_description":"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.","og_url":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/","og_site_name":"Data Ladder","article_publisher":"https:\/\/web.facebook.com\/DataLadderSoftware","article_published_time":"2021-11-15T11:23:47+00:00","article_modified_time":"2021-12-22T10:56:02+00:00","og_image":[{"width":700,"height":467,"url":"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Why-duplicates-exist-and-how-to-get-rid-of-them.jpg","type":"image\/jpeg"}],"author":"lbarrera","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"lbarrera","Tiempo de lectura":"17 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#article","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/"},"author":{"name":"lbarrera","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b"},"headline":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos?","datePublished":"2021-11-15T11:23:47+00:00","dateModified":"2021-12-22T10:56:02+00:00","mainEntityOfPage":{"@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/"},"wordCount":3416,"commentCount":0,"publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"keywords":["duplicaci\u00f3n de datos","limpieza de datos","Preparaci\u00f3n de datos"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/","url":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/","name":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos? - Data Ladder","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/#website"},"datePublished":"2021-11-15T11:23:47+00:00","dateModified":"2021-12-22T10:56:02+00:00","description":"Los datos tienen m\u00faltiples representaciones, es decir, los mismos datos pueden representarse de diferentes maneras. Esta es la raz\u00f3n por la que existen datos duplicados.","breadcrumb":{"@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dataladder.com\/es\/por-que-existen-los-duplicados-y-como-deshacerse-de-ellos\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dataladder.com\/es\/"},{"@type":"ListItem","position":2,"name":"\u00bfPor qu\u00e9 existen los duplicados y c\u00f3mo deshacerse de ellos?"}]},{"@type":"WebSite","@id":"https:\/\/dataladder.com\/es\/#website","url":"https:\/\/dataladder.com\/es\/","name":"Data Ladder","description":"Enterprise Data Profiling, Cleansing, and Matching","publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dataladder.com\/es\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/dataladder.com\/es\/#organization","name":"Data Ladder","url":"https:\/\/dataladder.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","contentUrl":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","width":413,"height":408,"caption":"Data Ladder"},"image":{"@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/dataladder-llc\/","https:\/\/web.facebook.com\/DataLadderSoftware"]},{"@type":"Person","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b","name":"lbarrera","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","caption":"lbarrera"},"url":"https:\/\/dataladder.com\/es\/author\/lbarrera\/"}]}},"modified_by":null,"_links":{"self":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62227"}],"collection":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/comments?post=62227"}],"version-history":[{"count":1,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62227\/revisions"}],"predecessor-version":[{"id":62228,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62227\/revisions\/62228"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media\/60398"}],"wp:attachment":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media?parent=62227"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/categories?post=62227"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/tags?post=62227"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}