{"id":62275,"date":"2021-08-20T23:25:00","date_gmt":"2021-08-21T03:25:00","guid":{"rendered":"https:\/\/dataladder.com\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/"},"modified":"2022-02-09T16:25:53","modified_gmt":"2022-02-09T16:25:53","slug":"comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados","status":"publish","type":"post","link":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/","title":{"rendered":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados"},"content":{"rendered":"\n<p>En este blog, analizaremos en profundidad la concordancia difusa, el enfoque m\u00e1s utilizado para la deduplicaci\u00f3n de datos y la vinculaci\u00f3n de registros. Cubriremos:<\/p>\n\n\n\n<ul><li>\u00bfQu\u00e9 es el Fuzzy Matching?<\/li><li>\u00bfPor qu\u00e9 las empresas necesitan la concordancia difusa?<\/li><li>Ejemplo de un escenario de coincidencia difusa en el mundo real<\/li><li>T\u00e9cnicas de concordancia difusa<\/li><li>Ventajas y desventajas de la concordancia difusa<\/li><li>C\u00f3mo minimizar los falsos positivos y negativos<\/li><li>Scripts de emparejamiento difuso frente a software de emparejamiento difuso: \u00bfCu\u00e1l es mejor?<\/li><li>C\u00f3mo ejecutar Fuzzy Matching en DataMatch Enterprise<\/li><\/ul>\n\n\n\n<h2 id=\"que-es-el-fuzzy-matching\"><strong>\u00bfQu\u00e9 es el Fuzzy Matching?<\/strong><\/h2>\n\n\n\n<p>En lugar de marcar los registros como \u00abcoincidentes\u00bb o \u00abno coincidentes\u00bb, la concordancia difusa identifica la probabilidad de que dos registros sean realmente coincidentes en funci\u00f3n de si coinciden o no en los distintos identificadores.<\/p>\n\n\n\n<p>Los identificadores o par\u00e1metros que se eligen aqu\u00ed y el peso que se asigna constituyen la base de la correspondencia difusa. Si los par\u00e1metros son demasiado amplios, se encontrar\u00e1n m\u00e1s coincidencias, es cierto, pero tambi\u00e9n aumentar\u00e1n invariablemente las posibilidades de \u00abfalsos positivos\u00bb. Se trata de pares que el algoritmo o el <a href=\"https:\/\/dataladder.com\/es\/software-de-concordancia-difusa-calificado-como-la-herramienta-de-concordancia-de-nombres-difusa-numero-1\/\" target=\"_blank\" rel=\"noreferrer noopener\">software de concordancia difusa<\/a> de su elecci\u00f3n identifican como coincidentes, pero al revisarlos manualmente, descubrir\u00e1 que su enfoque identific\u00f3 un falso positivo.<\/p>\n\n\n\n<p>Considere las cadenas \u00ab<strong>Kent<\/strong>\u00bb y \u00ab<strong>10th<\/strong>\u00ab. Aunque es evidente que no hay ninguna coincidencia, los algoritmos populares de coincidencia difusa siguen calificando estas dos cadenas de casi un 50% de similitud, bas\u00e1ndose en el recuento de caracteres y la coincidencia fon\u00e9tica. <a href=\"https:\/\/asecuritysite.com\/forensics\/simstring\" target=\"_blank\" rel=\"noreferrer noopener\">Compru\u00e9belo usted mismo<\/a>.<\/p>\n\n\n\n<p>Los falsos positivos son uno de los mayores problemas de las coincidencias difusas. Cuanto m\u00e1s eficiente sea el sistema que utilices, menos falsos positivos habr\u00e1. Un sistema eficiente identificar\u00e1:<\/p>\n\n\n\n<ul><li>Acr\u00f3nimos<\/li><li>inversi\u00f3n del nombre<\/li><li>variaciones de nombre<\/li><li>graf\u00edas fon\u00e9ticas<\/li><li>errores ortogr\u00e1ficos deliberados<\/li><li>errores ortogr\u00e1ficos involuntarios<\/li><li>abreviaturas, por ejemplo, \u00abLtd\u00bb en lugar de \u00abLimited\u00bb.<\/li><li>inserci\u00f3n\/eliminaci\u00f3n de signos de puntuaci\u00f3n, espacios y caracteres especiales<\/li><li>Diferentes graf\u00edas de los nombres, por ejemplo, \u00abElisabeth\u00bb o \u00abElizabeth\u00bb, \u00abJon\u00bb en lugar de \u00abJohn\u00bb.<\/li><li>nombres acortados, por ejemplo, \u00abElizabeth\u00bb coincide con \u00abBetty\u00bb, \u00abBeth\u00bb, \u00abElisa\u00bb, \u00abElsa\u00bb, \u00abBeth\u00bb, etc.<\/li><\/ul>\n\n\n\n<p>Y muchas otras variaciones.<\/p>\n\n\n\n<h2 id=\"por-que-las-empresas-necesitan-la-concordancia-difusa\"><strong>\u00bfPor qu\u00e9 las empresas necesitan la concordancia difusa?<\/strong><\/h2>\n\n\n\n<p>Los estudios revelan que el 94% de las empresas admiten tener datos duplicados, y la mayor\u00eda de estos duplicados no son exactos y, por tanto, suelen pasar desapercibidos. El software de cotejo difuso le ayuda a establecer esas conexiones de forma autom\u00e1tica mediante una sofisticada l\u00f3gica de cotejo propia, independientemente de los errores ortogr\u00e1ficos, los datos no estandarizados o la informaci\u00f3n incompleta.<\/p>\n\n\n\n<p>Pero no se trata s\u00f3lo de la deduplicaci\u00f3n. Desde un punto de vista estrat\u00e9gico, el fuzzy matching entra en juego cuando se realiza la vinculaci\u00f3n de registros o la resoluci\u00f3n de entidades. En la secci\u00f3n anterior tambi\u00e9n hemos hablado brevemente de esto; el enfoque de coincidencia difusa es muy valioso cuando se crea una Fuente \u00danica de la Verdad para el an\u00e1lisis empresarial o se construye una base para la Gesti\u00f3n de Datos Maestros (MDM), lo que ayuda a las organizaciones a integrar datos de docenas de fuentes diferentes en toda la empresa, al tiempo que garantiza la precisi\u00f3n y minimiza la revisi\u00f3n manual. Vea c\u00f3mo un importante proveedor de servicios sanitarios pudo ahorrar cientos de horas de trabajo al a\u00f1o.<\/p>\n\n\n\n<p>Estas son algunas de las formas en que se utiliza el fuzzy matching para mejorar el resultado final:<\/p>\n\n\n\n<ul><li>Realice una visi\u00f3n \u00fanica del cliente<\/li><li>Trabaje con datos limpios en los que pueda confiar<\/li><li>Preparar los datos para la inteligencia empresarial<\/li><li>Mejore la precisi\u00f3n de sus datos para una mayor eficiencia operativa<\/li><li>Enriquecer los datos para profundizar en la informaci\u00f3n<\/li><li>Garantizar un mejor cumplimiento<\/li><li>Afinar la segmentaci\u00f3n de los clientes<\/li><li>Mejorar la prevenci\u00f3n del fraude<\/li><\/ul>\n\n\n\n<p>M\u00e1s informaci\u00f3n sobre las <a href=\"https:\/\/dataladder.com\/es\/8-beneficios-de-la-concordancia-de-datos-que-pueden-ayudarle-a-hacer-crecer-su-negocio\/\" target=\"_blank\" rel=\"noreferrer noopener\">ventajas de la concordancia difusa<\/a>.<\/p>\n\n\n\n<h3 id=\"ejemplo-de-un-escenario-de-coincidencia-difusa-en-el-mundo-real\"><strong>Ejemplo de un escenario de coincidencia difusa en el mundo real<\/strong><\/h3>\n\n\n\n<p>El siguiente ejemplo muestra c\u00f3mo las t\u00e9cnicas de vinculaci\u00f3n de registros pueden utilizarse para detectar el fraude, el despilfarro o el abuso de los programas del gobierno federal. En este caso, se fusionaron dos bases de datos para obtener informaci\u00f3n que antes no estaba disponible en una sola base de datos.<\/p>\n\n\n\n<p>Se cotej\u00f3 una base de datos formada por registros de 40.000 pilotos de avi\u00f3n con licencia de la Administraci\u00f3n Federal de Aviaci\u00f3n (FAA) de EE.UU. y residentes en el norte de California con una base de datos formada por personas que reciben pagos por discapacidad de la Administraci\u00f3n de la Seguridad Social. Cuarenta pilotos cuyos registros aparecieron en ambas bases de datos fueron detenidos.<\/p>\n\n\n\n<p>Un fiscal de la Oficina del Fiscal de los Estados Unidos en Fresno, California, declar\u00f3, seg\u00fan un informe de AP:<\/p>\n\n\n\n<p>\u00abProbablemente hubo un il\u00edcito penal\u00bb. Los pilotos estaban mintiendo a la FAA o recibiendo beneficios indebidamente. Los pilotos afirmaban ser m\u00e9dicamente aptos para volar aviones. Sin embargo, es posible que hayan volado con enfermedades debilitantes que deber\u00edan haberlos mantenido en tierra, desde la esquizofrenia y el trastorno bipolar hasta la adicci\u00f3n a las drogas y el alcohol y las afecciones card\u00edacas\u00bb.<\/p>\n\n\n\n<p>Al menos doce de estas personas \u00abten\u00edan licencias comerciales o de transporte a\u00e9reo\u00bb, seg\u00fan el informe. La FAA revoc\u00f3 14 licencias de piloto. Se descubri\u00f3 que los otros pilotos ment\u00edan sobre sus enfermedades para poder cobrar la Seguridad Social.<\/p>\n\n\n\n<p>La calidad de la vinculaci\u00f3n de los expedientes depend\u00eda en gran medida de la calidad de los nombres y direcciones de los pilotos con licencia dentro de los dos expedientes vinculados. La detecci\u00f3n del fraude tambi\u00e9n depend\u00eda de la integridad y exactitud de la informaci\u00f3n de una base de datos concreta de la Administraci\u00f3n de la Seguridad Social.<\/p>\n\n\n\n<p>Vea c\u00f3mo las empresas de su sector utilizan hoy la concordancia difusa.<\/p>\n\n\n\n<h2 id=\"tecnicas-de-concordancia-difusa\"><strong>T\u00e9cnicas de concordancia difusa<\/strong><\/h2>\n\n\n\n<p>Ahora ya sabe lo que es el fuzzy matching y las diferentes maneras en que puede utilizarlo para hacer crecer su negocio. La pregunta es, \u00bfc\u00f3mo se implementan los procesos de emparejamiento difuso en su organizaci\u00f3n?<\/p>\n\n\n\n<p>A continuaci\u00f3n se presenta una lista de las distintas t\u00e9cnicas de concordancia difusa que se utilizan en la actualidad:<\/p>\n\n\n\n<ul><li>Distancia de Levenshtein (o distancia de edici\u00f3n)<\/li><li>Distancia Damerau-Levenshtein<\/li><li>Distancia Jaro-Winkler<\/li><li>Distancia del teclado<\/li><li>Distancia Kullback-Leibler<\/li><li>\u00cdndice de Jaccard<\/li><li>Met\u00e1fono 3<\/li><li>Nombre Variante<\/li><li>Alineaci\u00f3n de s\u00edlabas<\/li><li>Acr\u00f3nimo<\/li><\/ul>\n\n\n\n<p>Obtenga m\u00e1s informaci\u00f3n sobre los <a href=\"https:\/\/www.rosette.com\/blog\/overview-fuzzy-name-matching-techniques\/\" target=\"_blank\" rel=\"noreferrer noopener\">algoritmos de coincidencia difusa<\/a>.<\/p>\n\n\n\n<h2 id=\"ventajas-y-desventajas-de-la-concordancia-difusa\"><strong>Ventajas y desventajas de la concordancia difusa<\/strong><\/h2>\n\n\n\n<p>Dado que el emparejamiento difuso se basa en un enfoque probabil\u00edstico para la identificaci\u00f3n de coincidencias, puede ofrecer una amplia gama de ventajas, como:<\/p>\n\n\n\n<p>&#8211; <strong>Mayor precisi\u00f3n de las coincid<\/strong>encias<strong>:<\/strong> la coincidencia difusa resulta ser un m\u00e9todo mucho m\u00e1s preciso para encontrar coincidencias entre dos o m\u00e1s conjuntos de datos. A diferencia de la concordancia determinista, que determina las coincidencias sobre una base de 0 o 1, la concordancia difusa puede detectar variaciones que se encuentran entre una base de 0 y 1 en un umbral de concordancia dado.<\/p>\n\n\n\n<p>&#8211;<strong>Proporciona soluciones a datos complejos:<\/strong>la l\u00f3gica difusa tambi\u00e9n permite a los usuarios encontrar coincidencias mediante la vinculaci\u00f3n de registros que constan de ligeras variaciones en forma de errores de ortograf\u00eda, may\u00fasculas y formato, valores nulos, etc., lo que la hace m\u00e1s adecuada para aplicaciones del mundo real en las que pueden producirse errores tipogr\u00e1ficos, de sistema y otros errores de datos. Esto incluye tambi\u00e9n los datos din\u00e1micos que se vuelven obsoletos o que deben actualizarse constantemente, como el cargo y la direcci\u00f3n de correo electr\u00f3nico.<\/p>\n\n\n\n<p>&#8211;<strong>F\u00e1cilmente configurable para efectuar falsos positivos: <\/strong>cuando el n\u00famero de falsos positivos debe reducirse o aumentarse para adaptarse a las necesidades de la empresa, los usuarios pueden ajustar f\u00e1cilmente el umbral de coincidencia para manipular los resultados o tener m\u00e1s coincidencias para la inspecci\u00f3n manual. Esto ofrece a los usuarios una mayor flexibilidad a la hora de adaptar los algoritmos de l\u00f3gica difusa a los requisitos espec\u00edficos de coincidencia.<\/p>\n\n\n\n<p>&#8211; <strong>M\u00e1s adecuado para encontrar coincidencias sin un identificador \u00fanico consistente: <\/strong>disponer de datos de identificaci\u00f3n \u00fanicos, como el SSN o la fecha de nacimiento, es fundamental para encontrar coincidencias entre fuentes de datos dispares en el caso de las coincidencias deterministas. Sin embargo, utilizando un enfoque de an\u00e1lisis estad\u00edstico, la coincidencia difusa puede ayudar a encontrar duplicados incluso sin datos de identificaci\u00f3n consistentes.<\/p>\n\n\n\n<p>Sin embargo, el emparejamiento difuso no est\u00e1 exento de limitaciones. Entre ellas se encuentran:<\/p>\n\n\n\n<p>&#8211; <strong>Puede vincular incorrectamente entidades diferentes: <\/strong>a pesar de la configurabilidad disponible en la concordancia difusa, los altos falsos positivos debidos a la vinculaci\u00f3n incorrecta de entidades aparentemente similares pero diferentes pueden llevar a gastar m\u00e1s tiempo en la comprobaci\u00f3n manual de duplicados con identificadores \u00fanicos.<\/p>\n\n\n\n<p>&#8211; <strong>Dificultad para escalar a trav\u00e9s de grandes conjuntos de datos: <\/strong>la l\u00f3gica difusa puede ser dif\u00edcil de escalar a trav\u00e9s de millones de puntos de datos, especialmente en el caso de fuentes de datos dispares.<\/p>\n\n\n\n<p>&#8211; <strong>Puede requerir considerables pruebas para su validaci\u00f3n: <\/strong>las reglas definidas en los algoritmos deben ser constantemente refinadas y probadas para asegurar que es capaz de ejecutar partidos con alta precisi\u00f3n.<\/p>\n\n\n\n<h2 id=\"como-minimizar-los-falsos-positivos-y-negativos\"><strong>C\u00f3mo minimizar los falsos positivos y negativos<\/strong><\/h2>\n\n\n\n<p>En la secci\u00f3n anterior hemos hablado brevemente de los falsos positivos. Aunque dificultan el cotejo al a\u00f1adir tiempo de revisi\u00f3n manual al proceso, no suponen un verdadero riesgo para la empresa, ya que el sistema marcar\u00e1 los falsos positivos en funci\u00f3n de la puntuaci\u00f3n global de cotejo. Veamos ahora los \u00abfalsos negativos\u00bb. Esto se refiere a los partidos que el sistema pasa por alto por completo: no s\u00f3lo una puntuaci\u00f3n baja del partido, sino una ausencia de puntuaci\u00f3n del partido. Esto supone un grave riesgo para la empresa, ya que los falsos negativos nunca se revisan porque nadie sabe que existen. Entre los factores que suelen dar lugar a falsos negativos se encuentran:<\/p>\n\n\n\n<ul><li>Falta de datos relevantes<\/li><li>Errores significativos en la introducci\u00f3n de datos<\/li><li>Limitaciones del sistema<\/li><li>El criterio de coincidencia es demasiado estrecho<\/li><li>Nivel inadecuado de coincidencia difusa<\/li><\/ul>\n\n\n\n<p>El m\u00e9todo m\u00e1s eficaz para minimizar tanto los falsos positivos como los negativos es perfilar y limpiar las fuentes de datos por separado antes de realizar el cotejo. Los principales proveedores de <a href=\"https:\/\/dataladder.com\/es\/software-de-comparacion-de-datos-calificado-como-el-mejor-de-su-clase-con-una-precision-de-coincidencia-del-96\/\" target=\"_blank\" rel=\"noreferrer noopener\">soluciones de cotejo de datos<\/a> suelen incluir un perfilador de datos que proporciona r\u00e1pidamente suficientes metadatos para construir un an\u00e1lisis de perfil convincente de la calidad de los datos, como los valores que faltan, la falta de estandarizaci\u00f3n o cualquier otra discrepancia en sus datos. Al <a href=\"https:\/\/dataladder.com\/es\/software-y-herramientas-de-creacion-de-perfiles-de-datos-obtenga-resultados-instantaneos-de-la-evaluacion-de-la-calidad-de-los-datos\/\">perfilar sus datos<\/a>, puede cuantificar r\u00e1pidamente el alcance y la profundidad del proyecto principal, ya sea la gesti\u00f3n de datos maestros, la correspondencia, la limpieza, la deduplicaci\u00f3n o la estandarizaci\u00f3n.<\/p>\n\n\n\n<p>Una vez que haya perfilado sus datos, sabr\u00e1 exactamente qu\u00e9 reglas de negocio aplicar para limpiar y estandarizar sus datos de la manera m\u00e1s eficiente. Tambi\u00e9n podr\u00e1 reconocer y rellenar r\u00e1pidamente los valores que faltan, quiz\u00e1s comprando datos de terceros.<\/p>\n\n\n\n<p>Unos datos m\u00e1s limpios y completos reducen significativamente los falsos positivos y negativos al aumentar la precisi\u00f3n de las coincidencias, ya que sus datos est\u00e1n estandarizados. Los algoritmos de concordancia difusa que se utilizan, los criterios de concordancia que se definen, el peso que se asigna a los distintos par\u00e1metros, la forma en que se combinan los distintos algoritmos y se asigna la prioridad&#8230; todos ellos son factores importantes para minimizar los falsos positivos y negativos. Pero nada de esto va a servir de mucho si no se han perfilado y limpiado los datos primero. Vea c\u00f3mo DataMatch Enterprise ha ayudado a m\u00e1s de 4.000 clientes en m\u00e1s de 40 pa\u00edses a limpiar, desduplicar y vincular sus datos de forma eficiente.<\/p>\n\n\n\n<h2 id=\"guiones-de-emparejamiento-difuso-frente-a-software-de-emparejamiento-difuso-cual-es-mejor\"><strong>Guiones de emparejamiento difuso frente a software de emparejamiento difuso: \u00bfCu\u00e1l es mejor?<\/strong><\/h2>\n\n\n\n<h3 id=\"guiones-de-concordancia-difusa\"><strong>Guiones de concordancia difusa<\/strong><\/h3>\n\n\n\n<p>La l\u00f3gica difusa puede aplicarse f\u00e1cilmente a partir de scripts de codificaci\u00f3n manual que est\u00e1n disponibles en varios lenguajes de programaci\u00f3n y aplicaciones. Algunas de ellas son:<\/p>\n\n\n\n<p>&#8211; <strong>Python:<\/strong> Las bibliotecas de Python, como FuzzyWuzzy, se pueden utilizar para ejecutar la coincidencia de cadenas de un m\u00e9todo f\u00e1cil e intuitivo. Usando el Tookit de Vinculaci\u00f3n de Registros de Python, los usuarios pueden ejecutar varios m\u00e9todos de indexaci\u00f3n, incluyendo vecindad ordenada y bloqueo, e identificar duplicados usando FuzzyWuzzy. Aunque Python es f\u00e1cil de usar, puede ser m\u00e1s lento a la hora de ejecutar partidos que otros m\u00e9todos.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"98\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Python-Fuzzy-300x98-1.png\" alt=\"\" class=\"wp-image-60310\"\/><\/figure>\n\n\n\n<p>Fuente: <a href=\"https:\/\/www.datacamp.com\/community\/tutorials\/fuzzy-string-python\">DataCamp<\/a><\/p>\n\n\n\n<p>&#8211; Java <strong>: <\/strong>Java incluye varios algoritmos de similitud de cadenas, como el paquete java-string-similarity, que consta de algoritmos como Levenshtein, \u00edndice de Jaccard y Jaro-Wrinkler. Alternativamente, el algoritmo de python FuzzyWuzzy puede ser utilizado dentro de Java para ejecutar coincidencias. A continuaci\u00f3n, un ejemplo:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"51\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/GitHub-Fuzzy-300x51-1.png\" alt=\"\" class=\"wp-image-60314\"\/><\/figure>\n\n\n\n<p>Fuente: <a href=\"https:\/\/github.com\/xdrop\/fuzzywuzzy\">GitHub<\/a><\/p>\n\n\n\n<p>&#8211; <strong>Excel: <\/strong>El complemento Fuzzy Look-up se puede utilizar para ejecutar la correspondencia difusa entre dos conjuntos de datos. El complemento tiene una interfaz sencilla que incluye la opci\u00f3n de seleccionar las columnas de salida, as\u00ed como el n\u00famero de coincidencias y el umbral de similitud. Sin embargo, la funcionalidad tambi\u00e9n puede dar altos falsos positivos ya que puede no identificar correctamente los duplicados. Un ejemplo de ello es \u00abATT CORP\u00bb y \u00abAT&amp;T Inc.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"110\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Excel-Fuzzy-300x110-1.png\" alt=\"\" class=\"wp-image-60318\"\/><\/figure>\n\n\n\n<p>Fuente: <a href=\"https:\/\/www.youtube.com\/watch?v=IG27sqkIO8w\">Mr.Excel.com<\/a><\/p>\n\n\n\n<h3 id=\"software-de-concordancia-difusa\"><strong>Software de concordancia difusa<\/strong><\/h3>\n\n\n\n<p>Por otro lado, el software de concordancia difusa est\u00e1 equipado con uno o varios algoritmos de l\u00f3gica difusa, junto con la concordancia exacta y fon\u00e9tica, para identificar y concordar registros a trav\u00e9s de millones de puntos de datos de fuentes de datos m\u00faltiples y dispares, incluyendo bases de datos relacionales, aplicaciones web y CRM.<\/p>\n\n\n\n<p>Las herramientas de cotejo difuso vienen con funciones de calidad de datos preconfiguradas, como la elaboraci\u00f3n de perfiles de datos y las transformaciones de limpieza y normalizaci\u00f3n de datos, para perfeccionar y mejorar eficazmente la precisi\u00f3n de las coincidencias entre dos o m\u00e1s conjuntos de datos.<\/p>\n\n\n\n<p>A diferencia de los scripts de concordancia, estas herramientas son mucho m\u00e1s f\u00e1ciles de desplegar y ejecutar los partidos gracias a una interfaz de apuntar y hacer clic.<\/p>\n\n\n\n<h3 id=\"que-es-mejor\"><strong>\u00bfQu\u00e9 es mejor?<\/strong><\/h3>\n\n\n\n<p>La elecci\u00f3n de uno de los dos enfoques se reduce a los siguientes factores:<\/p>\n\n\n\n<p><strong>Tiempo<\/strong><\/p>\n\n\n\n<p>Los scripts de concordancia tienen la ventaja de ser f\u00e1ciles de desplegar a conveniencia de los usuarios. Sin embargo, el constante perfeccionamiento y las pruebas necesarias para garantizar su eficacia, especialmente en cientos y miles de registros, pueden suponer semanas, si no meses, de trabajo. En situaciones en las que hay que encontrar duplicados y coincidencias con mayor rapidez para cumplir con los ajustados plazos de los proyectos, una herramienta de coincidencia difusa resulta mucho m\u00e1s fiable y conveniente para realizar coincidencias en conjuntos de datos muy grandes en un plazo de d\u00edas o de unas pocas horas.<\/p>\n\n\n\n<p><strong>Coste<\/strong><\/p>\n\n\n\n<p>Los guiones de codificaci\u00f3n manual son poco costosos en comparaci\u00f3n con las herramientas de cotejo, siempre que el n\u00famero de registros sea peque\u00f1o. Sin embargo, en el caso de conjuntos de datos compuestos por millones o miles de millones de registros, el coste de utilizar scripts puede superar con creces el de las herramientas de cotejo, teniendo en cuenta el tiempo y los recursos utilizados para atender a los<\/p>\n\n\n\n<p><strong>Escalabilidad<\/strong><\/p>\n\n\n\n<p>Los scripts de l\u00f3gica difusa tienden a funcionar mejor para unos pocos miles de registros, en los que las variaciones de los datos no son demasiadas; de lo contrario, las reglas pueden fallar y requerir m\u00e1s refinamiento, lo que dificulta su escalabilidad.<\/p>\n\n\n\n<p>Una herramienta de cotejo difuso que viene equipada con la capacidad de ejecutar cotejos con millones de puntos de datos en pocas horas, as\u00ed como con capacidades de automatizaci\u00f3n por lotes y en tiempo real para minimizar las tareas repetitivas y las horas de trabajo.<\/p>\n\n\n\n<p><strong>Complejidad de los datos<\/strong><\/p>\n\n\n\n<p>Los usuarios pueden querer encontrar coincidencias o duplicados en unos cuantos miles de registros. En cambio, los organismos federales, las instituciones p\u00fablicas y las empresas suelen tener conjuntos de datos no homog\u00e9neos procedentes de m\u00faltiples fuentes (Excel, CSV, bases de datos relacionales, datos de mainframe heredados y repositorios basados en Hadoop).<\/p>\n\n\n\n<p>En cambio, en el caso de los scripts de codificaci\u00f3n manual, los usuarios tienen que escribir m\u00faltiples y complejas reglas de l\u00f3gica difusa para tener en cuenta la disparidad de los datos y sus anomal\u00edas, lo que resulta muy tedioso y requiere mucho tiempo.<\/p>\n\n\n\n<h2 id=\"es-facil-rapido-y-esta-centrado-en-la-creacion-de-valor-empresarial\"><strong>Es f\u00e1cil, r\u00e1pido y est\u00e1 centrado en la creaci\u00f3n de valor empresarial<\/strong><\/h2>\n\n\n\n<p>Tradicionalmente, el fuzzy matching se ha considerado un arte complejo y arcano, en el que los costes de los proyectos suelen ser de cientos de miles de d\u00f3lares, se tarda meses, si no a\u00f1os, en obtener un retorno de la inversi\u00f3n tangible, e incluso entonces, siguen existiendo problemas de seguridad, escalabilidad y precisi\u00f3n. Esto ya no es as\u00ed con los modernos programas de calidad de datos. Basado en d\u00e9cadas de investigaci\u00f3n y m\u00e1s de 4.000 implantaciones en m\u00e1s de 40 pa\u00edses, <a href=\"https:\/\/dataladder.com\/es\/productos\/datamatch-enterprise-calificado-como-el-producto-numero-uno-para-la-gestion-de-la-calidad-de-los-datos\/\" target=\"_blank\" rel=\"noreferrer noopener\">DataMatch Enterprise<\/a> es una aplicaci\u00f3n de limpieza de datos muy visual dise\u00f1ada espec\u00edficamente para resolver problemas de calidad de datos. La plataforma aprovecha m\u00faltiples algoritmos patentados y est\u00e1ndar para identificar variaciones fon\u00e9ticas, difusas, con claves err\u00f3neas, abreviadas y espec\u00edficas del dominio.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img width=\"1024\" height=\"434\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-1024x434.png\" alt=\"\" class=\"wp-image-60322\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-1024x434.png 1024w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-300x127.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1-768x326.png 768w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/Data-Profile_DME-Data-Profile-Graphic-1536x651-1.png 1536w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Construya configuraciones escalables para la deduplicaci\u00f3n y la <a href=\"https:\/\/dataladder.com\/es\/software-de-vinculacion-de-registros\/\" target=\"_blank\" rel=\"noreferrer noopener\">vinculaci\u00f3n de registros<\/a>, la supresi\u00f3n, la mejora, la extracci\u00f3n y la <a href=\"https:\/\/dataladder.com\/es\/software-de-estandarizacion-de-datos-herramienta-de-estandarizacion-de-datos-rapida-y-rentable\/\">estandarizaci\u00f3n<\/a> de datos empresariales y de clientes, y cree una \u00fanica fuente de verdad para maximizar el impacto de sus datos en toda la empresa.<\/p>\n\n\n\n<h2 id=\"como-ejecutarlo-en-datamatch-enterprise\"><strong>C\u00f3mo ejecutarlo en DataMatch Enterprise<\/strong><\/h2>\n\n\n\n<p>Ejecutar el fuzzy matching en DataMatch Enterprise es un proceso sencillo, paso a paso, que comprende lo siguiente:<\/p>\n\n\n\n<ol><li>Importaci\u00f3n de datos<\/li><li>Perfilado de datos<\/li><li>Depuraci\u00f3n y normalizaci\u00f3n de datos<\/li><li>Configuraci\u00f3n del partido<\/li><li>Definiciones de los partidos y<\/li><li>Resultados de los partidos<\/li><\/ol>\n\n\n\n<p>En primer lugar, importamos los conjuntos de datos que utilizaremos para encontrar coincidencias y utilizamos la opci\u00f3n de vista previa de datos para echar un vistazo a los registros. En nuestro ejemplo, son \u00abMaestro de clientes\u00bb y \u00abNuevos registros de clientes potenciales\u00bb, como se muestra a continuaci\u00f3n.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"173\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Data-Import-300x173-1.png\" alt=\"\" class=\"wp-image-60326\"\/><\/figure>\n\n\n\n<p>En segundo lugar, pasamos al m\u00f3dulo de perfil de datos para identificar todo tipo de anomal\u00edas en los datos estad\u00edsticos, errores y posibles \u00e1reas problem\u00e1ticas que habr\u00eda que arreglar o perfeccionar antes de pasar a cualquier cotejo.<\/p>\n\n\n\n<p>Como se muestra a continuaci\u00f3n, el conjunto de datos de nuevos registros de clientes potenciales se perfila en t\u00e9rminos de registros v\u00e1lidos e inv\u00e1lidos, valores nulos, distintos, s\u00f3lo n\u00fameros, s\u00f3lo letras, espacios iniciales, errores de puntuaci\u00f3n y mucho m\u00e1s.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/DME-Data-Profiling-300x84.png\" alt=\"DataMatch Enterprise - Perfiles de datos\"\/><\/figure>\n\n\n\n<p>Una vez que hemos elaborado el perfil, pasamos al m\u00f3dulo de limpieza y normalizaci\u00f3n de datos, en el que corregimos los errores de codificaci\u00f3n, eliminamos los espacios iniciales y finales, sustituimos los ceros por os y viceversa y analizamos campos como el nombre y la direcci\u00f3n en varios incrementos m\u00e1s peque\u00f1os.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"76\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Cleansing-Standardization-300x76-1.png\" alt=\"\" class=\"wp-image-60330\"\/><\/figure>\n\n\n\n<p>Despu\u00e9s de refinar nuestros datos, seleccionamos el tipo de configuraci\u00f3n de coincidencia que necesitamos para nuestra actividad de coincidencia: Todos, Entre, Dentro o Ninguno. Para nuestro ejemplo, seleccionaremos Entre para encontrar coincidencias s\u00f3lo en los dos conjuntos de datos.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"51\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Confg-300x51-1.png\" alt=\"\" class=\"wp-image-60334\"\/><\/figure>\n\n\n\n<p>En Match Definitions, seleccionaremos la definici\u00f3n de coincidencia o los criterios de coincidencia y &#8216;Fuzzy&#8217; (dependiendo de nuestro caso de uso) como establecer el nivel de umbral de coincidencia en &#8217;90&#8217; y utilizar la coincidencia &#8216;Exacta&#8217; para los campos Ciudad y Estado y luego hacer clic en &#8216;Match&#8217;.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"122\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Defns-300x122-1.png\" alt=\"\" class=\"wp-image-60338\"\/><\/figure>\n\n\n\n<p>Seg\u00fan nuestra definici\u00f3n de coincidencia, el conjunto de datos y el grado de depuraci\u00f3n y estandarizaci\u00f3n, obtenemos 526 coincidencias, cada una de ellas con una puntuaci\u00f3n de coincidencia correspondiente desde el 100% y por debajo. Si necesitamos m\u00e1s falsos positivos para inspeccionarlos manualmente, los usuarios pueden volver a bajar el nivel del umbral f\u00e1cilmente.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"300\" height=\"181\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/DME-Match-Results-300x181-1.png\" alt=\"\" class=\"wp-image-60342\"\/><\/figure>\n\n\n\n<p>Para m\u00e1s informaci\u00f3n sobre c\u00f3mo puede implementar la concordancia difusa en DataMatch Enterprise para su caso de uso empresarial,<\/p>\n\n\n\n<p><a href=\"https:\/\/dataladder.com\/es\/contacta-con-nosotros-escalera-de-datos\/\">contacte con nosotros hoy mismo.<\/a><\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img width=\"887\" height=\"541\" src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2.png\" alt=\"\" class=\"wp-image-60346\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2.png 887w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2-300x183.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/11\/fuzzy-whitepaper2-768x468.png 768w\" sizes=\"(max-width: 887px) 100vw, 887px\" \/><\/figure>\n\n\n\n<p><strong>C\u00f3mo funcionan las mejores soluciones de concordancia difusa de su clase: Combinando algoritmos establecidos y propios<\/strong><\/p>\n\n\n\n<p><a href=\"https:\/\/content.dataladder.com\/How-Best-In-Class-Fuzzy-Matching-Solutions-Work-Combining-Established-and-Proprietary-Algorithms-WP.pdf\"><br>Descargar<br><\/a>Las empresas necesitan las mejores herramientas para procesar estos datos y darles sentido. Este libro blanco explorar\u00e1 los desaf\u00edos de la correspondencia, c\u00f3mo funcionan los diferentes tipos de algoritmos de correspondencia y c\u00f3mo el mejor software utiliza estos algoritmos para lograr los objetivos de <a href=\"https:\/\/dataladder.com\/es\/8-beneficios-de-la-concordancia-de-datos-que-pueden-ayudarle-a-hacer-crecer-su-negocio\/\">correspondencia de datos<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En este blog, analizaremos en profundidad la concordancia difusa, el enfoque m\u00e1s utilizado para la deduplicaci\u00f3n de datos y la vinculaci\u00f3n de registros. Cubriremos: \u00bfQu\u00e9 es el Fuzzy Matching? \u00bfPor qu\u00e9 las empresas necesitan la concordancia difusa? Ejemplo de un escenario de coincidencia difusa en el mundo real T\u00e9cnicas de concordancia difusa Ventajas y desventajas [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":65449,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","_links_to":"","_links_to_target":""},"categories":[1212,1341,1271],"tags":[],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v19.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder\" \/>\n<meta property=\"og:description\" content=\"En este blog, analizaremos en profundidad la concordancia difusa, el enfoque m\u00e1s utilizado para la deduplicaci\u00f3n de datos y la vinculaci\u00f3n de registros. Cubriremos: \u00bfQu\u00e9 es el Fuzzy Matching? \u00bfPor qu\u00e9 las empresas necesitan la concordancia difusa? Ejemplo de un escenario de coincidencia difusa en el mundo real T\u00e9cnicas de concordancia difusa Ventajas y desventajas [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Ladder\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/web.facebook.com\/DataLadderSoftware\" \/>\n<meta property=\"article:published_time\" content=\"2021-08-21T03:25:00+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2022-02-09T16:25:53+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/08\/Data-Matching_DME-Data-Profile-Graphic-copy-min.webp\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"818\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/webp\" \/>\n<meta name=\"author\" content=\"lbarrera\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"lbarrera\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"17 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\"},\"author\":{\"name\":\"lbarrera\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\"},\"headline\":\"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados\",\"datePublished\":\"2021-08-21T03:25:00+00:00\",\"dateModified\":\"2022-02-09T16:25:53+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\"},\"wordCount\":3524,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"articleSection\":[\"Data quality management\",\"Destacado\",\"Gesti\u00f3n de la calidad de los datos\"],\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\",\"url\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\",\"name\":\"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/#website\"},\"datePublished\":\"2021-08-21T03:25:00+00:00\",\"dateModified\":\"2022-02-09T16:25:53+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dataladder.com\/es\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dataladder.com\/es\/#website\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"name\":\"Data Ladder\",\"description\":\"Enterprise Data Profiling, Cleansing, and Matching\",\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dataladder.com\/es\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dataladder.com\/es\/#organization\",\"name\":\"Data Ladder\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"contentUrl\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"width\":413,\"height\":408,\"caption\":\"Data Ladder\"},\"image\":{\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/dataladder-llc\/\",\"https:\/\/web.facebook.com\/DataLadderSoftware\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\",\"name\":\"lbarrera\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"caption\":\"lbarrera\"},\"url\":\"https:\/\/dataladder.com\/es\/author\/lbarrera\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/","og_locale":"es_ES","og_type":"article","og_title":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder","og_description":"En este blog, analizaremos en profundidad la concordancia difusa, el enfoque m\u00e1s utilizado para la deduplicaci\u00f3n de datos y la vinculaci\u00f3n de registros. Cubriremos: \u00bfQu\u00e9 es el Fuzzy Matching? \u00bfPor qu\u00e9 las empresas necesitan la concordancia difusa? Ejemplo de un escenario de coincidencia difusa en el mundo real T\u00e9cnicas de concordancia difusa Ventajas y desventajas [&hellip;]","og_url":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/","og_site_name":"Data Ladder","article_publisher":"https:\/\/web.facebook.com\/DataLadderSoftware","article_published_time":"2021-08-21T03:25:00+00:00","article_modified_time":"2022-02-09T16:25:53+00:00","og_image":[{"width":2560,"height":818,"url":"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/08\/Data-Matching_DME-Data-Profile-Graphic-copy-min.webp","type":"image\/webp"}],"author":"lbarrera","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"lbarrera","Tiempo de lectura":"17 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#article","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/"},"author":{"name":"lbarrera","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b"},"headline":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados","datePublished":"2021-08-21T03:25:00+00:00","dateModified":"2022-02-09T16:25:53+00:00","mainEntityOfPage":{"@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/"},"wordCount":3524,"commentCount":0,"publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"articleSection":["Data quality management","Destacado","Gesti\u00f3n de la calidad de los datos"],"inLanguage":"es","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/","url":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/","name":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados - Data Ladder","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/#website"},"datePublished":"2021-08-21T03:25:00+00:00","dateModified":"2022-02-09T16:25:53+00:00","breadcrumb":{"@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dataladder.com\/es\/"},{"@type":"ListItem","position":2,"name":"Comparaci\u00f3n difusa 101: limpieza y vinculaci\u00f3n de datos desordenados"}]},{"@type":"WebSite","@id":"https:\/\/dataladder.com\/es\/#website","url":"https:\/\/dataladder.com\/es\/","name":"Data Ladder","description":"Enterprise Data Profiling, Cleansing, and Matching","publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dataladder.com\/es\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/dataladder.com\/es\/#organization","name":"Data Ladder","url":"https:\/\/dataladder.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","contentUrl":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","width":413,"height":408,"caption":"Data Ladder"},"image":{"@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/dataladder-llc\/","https:\/\/web.facebook.com\/DataLadderSoftware"]},{"@type":"Person","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b","name":"lbarrera","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","caption":"lbarrera"},"url":"https:\/\/dataladder.com\/es\/author\/lbarrera\/"}]}},"modified_by":null,"_links":{"self":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62275"}],"collection":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/comments?post=62275"}],"version-history":[{"count":5,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62275\/revisions"}],"predecessor-version":[{"id":65467,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62275\/revisions\/65467"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media\/65449"}],"wp:attachment":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media?parent=62275"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/categories?post=62275"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/tags?post=62275"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}