{"id":62380,"date":"2021-03-31T00:00:00","date_gmt":"2021-03-31T04:00:00","guid":{"rendered":"https:\/\/dataladder.com\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/"},"modified":"2026-01-01T11:35:21","modified_gmt":"2026-01-01T16:35:21","slug":"guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales","status":"publish","type":"post","link":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/","title":{"rendered":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales"},"content":{"rendered":"<p>Datos estructurados sucios y desestructurados, m\u00e1s de una docena de variaciones de nombre y definiciones de campo incoherentes en fuentes dispares. Esta lata de gusanos es un riesgo ocupacional casi b\u00e1sico para cualquier analista de datos que trabaje en un proyecto con miles de registros. Y las implicaciones son cualquier cosa menos ordinarias:<\/p>\n<ol>\n<li>Las instituciones financieras mundiales fueron multadas con <a href=\"https:\/\/www.caymancompass.com\/2020\/08\/25\/global-banks-hit-with-us5-6-billion-in-compliance-fines-in-2020\/\" target=\"_blank\" rel=\"noopener\"> 5.600 millones de d\u00f3lares en sanciones<\/a> por incumplimiento de la normativa en 2020<\/li>\n<li>Un estudio de Black Book Market Research revela que un tercio de las reclamaciones de las organizaciones sanitarias se deniegan debido a una mala correspondencia de los pacientes.<\/li>\n<li>Los<a href=\"https:\/\/blog.zoominfo.com\/cure-for-the-common-cold-call-infographic\/\" target=\"_blank\" rel=\"noopener\">representantes de ventas pierden el 25% de su tiempo<\/a> debido a los malos datos de los prospectos.<\/li>\n<\/ol>\n<p>As\u00ed que esta es la pregunta clave: \u00bfExiste una forma mejor de superar estos problemas?<\/p>\n<p>A diferencia de las herramientas de resoluci\u00f3n de entidades, que pueden realizar la ingesta de datos desde m\u00faltiples puntos y encontrar coincidencias no exactas a una velocidad inigualable, la resoluci\u00f3n manual de datos de entidades mediante complejos algoritmos y t\u00e9cnicas resulta ser una tarea muy costosa (por no decir agotadora). Un estudio de Gartner ha revelado que la mala calidad de los datos cuesta a las empresas 15 millones de d\u00f3lares al a\u00f1o, sobre todo a las que tienen operaciones que abarcan varios territorios y unidades de negocio.<\/p>\n<p>Esta gu\u00eda detallada le guiar\u00e1 a trav\u00e9s de la resoluci\u00f3n de entidades, c\u00f3mo funciona, por qu\u00e9 la resoluci\u00f3n manual de entidades es problem\u00e1tica para las empresas y por qu\u00e9 es \u00f3ptimo optar por las herramientas de resoluci\u00f3n de entidades.<\/p>\n<h3><b>\u00bfQu\u00e9 es la resoluci\u00f3n de entidades?<\/b><\/h3>\n<p>El libro <a href=\"https:\/\/www.sciencedirect.com\/book\/9780123819727\/entity-resolution-and-information-quality\" target=\"_blank\" rel=\"noopener\">Entity Resolution and Information<\/a> Quality describe la resoluci\u00f3n de entidades (ER) como \u00abla determinaci\u00f3n de cu\u00e1ndo las referencias a entidades del mundo real son equivalentes (se refieren a la misma entidad) o no son equivalentes (se refieren a entidades diferentes)\u00bb.<\/p>\n<p>En otras palabras, es el proceso de identificar y vincular m\u00faltiples registros a la misma entidad cuando los registros se describen de forma diferente y viceversa.<\/p>\n<p>Por ejemplo, plantea la siguiente pregunta: \u00bflas entradas de datos \u00abJon Snow\u00bb y \u00abJohn Snowden\u00bb son la misma persona o son dos personas totalmente diferentes?<\/p>\n<p>Esto tambi\u00e9n se aplica a las direcciones, los c\u00f3digos postales y los n\u00fameros de la seguridad social, etc.<\/p>\n<p>La ER se lleva a cabo mediante el examen de la similitud de varios registros, cotej\u00e1ndolos con identificadores \u00fanicos. Se trata de los registros que tienen menos probabilidades de cambiar con el tiempo (como los n\u00fameros de la seguridad social, la fecha de nacimiento, los c\u00f3digos postales, etc.). Para averiguar si estos registros son iguales o no, hay que cotejarlos con un identificador \u00fanico de la siguiente manera:<\/p>\n<p><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2020\/09\/xDL_Merging-Data-Cleansing-Graphic.png.pagespeed-1.jpg\" sizes=\"(max-width: 449px) 100vw, 449px\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2020\/09\/xDL_Merging-Data-Cleansing-Graphic.png.pagespeed-1.jpg 449w, https:\/\/dataladder.com\/wp-content\/uploads\/2020\/09\/xDL_Merging-Data-Cleansing-Graphic.png.pagespeed-1-229x300.jpg 229w\" alt=\"\" width=\"449\" height=\"587\" \/><\/p>\n<p>En el ejemplo anterior, John Oneil, Johnathan O y Johny O&#8217;neal coinciden a trav\u00e9s de un identificador \u00fanico que es el n\u00famero de identificaci\u00f3n nacional.<\/p>\n<p>La ER suele consistir en vincular y cotejar los datos de varios registros para encontrar posibles duplicados y eliminar los duplicados cotejados, por lo que se utiliza indistintamente:<\/p>\n<ol>\n<li><a href=\"https:\/\/dataladder.com\/es\/guia-rapida-del-software-de-vinculacion-de-registros\/\" target=\"_blank\" rel=\"noopener\">Vinculaci\u00f3n de registros<\/a><\/li>\n<li><a href=\"https:\/\/dataladder.com\/es\/comparacion-difusa-101-limpieza-y-vinculacion-de-datos-desordenados\/\" target=\"_blank\" rel=\"noopener\">Coincidencia difusa<\/a><\/li>\n<li><a href=\"https:\/\/dataladder.com\/es\/software-de-purga-de-fusiones-utilizar-reglas-de-supervivencia-incorporadas-y-personalizadas\/\" target=\"_blank\" rel=\"noopener\">Fusi\u00f3n\/purga<\/a><\/li>\n<li>Agrupaci\u00f3n de entidades<\/li>\n<li><a href=\"https:\/\/dataladder.com\/es\/software-de-deduplicacion-de-datos-utilice-reglas-integradas-y-personalizadas-para-la-deduplicacion-de-crm\/\" target=\"_blank\" rel=\"noopener\">Deduplicaci\u00f3n <\/a>y m\u00e1s<\/li>\n<\/ol>\n<h3><b>C\u00f3mo funciona la resoluci\u00f3n de entidades en la pr\u00e1ctica<\/b><\/h3>\n<p>Hay varios pasos en una actividad de ER. Veamos esto con m\u00e1s detalle.<\/p>\n<h4><b>Ingesti\u00f3n<\/b><\/h4>\n<p>Se trata de poner todos los datos de m\u00faltiples fuentes bajo una vista centralizada. Una empresa suele tener datos dispersos en bases de datos dispares, CRM, Excel y PDF y formatos de datos que incluyen cadenas, fechas y ambos.<\/p>\n<p>Por ejemplo, una gran empresa de servicios hipotecarios y financieros puede tener una base de datos central en MySQL, los datos de las hojas de reclamaciones en PDF y su lista de propietarios en Excel. La importaci\u00f3n de datos de todas estas fuentes ayudar\u00e1 a preparar el terreno para vincular los registros y encontrar duplicados. Para m\u00e1s informaci\u00f3n, pulse <a href=\"https:\/\/dataladder.com\/es\/fusion-de-datos-de-multiples-fuentes-retos-y-soluciones\/\" target=\"_blank\" rel=\"noopener\">aqu\u00ed<\/a>.<\/p>\n<p>En otros casos, combinar diferentes fuentes en una sola puede significar tambi\u00e9n cambiar el esquema de las bases de datos en un esquema predefinido para su posterior procesamiento.<\/p>\n<h4><b>Perfilado<\/b><\/h4>\n<p>Una vez importadas las fuentes de datos, el siguiente paso es comprobar su estado para identificar cualquier tipo de anomal\u00eda estad\u00edstica en forma de datos inexactos y faltantes, as\u00ed como problemas de codificaci\u00f3n (es decir, min\u00fasculas y may\u00fasculas). Lo ideal es que un analista de datos intente encontrar las \u00e1reas potencialmente problem\u00e1ticas que deben arreglarse antes de realizar cualquier tipo de limpieza y resoluci\u00f3n de entidades.<\/p>\n<p>Aqu\u00ed un usuario puede querer comprobar si los campos se ajustan a RegEx &#8211; expresiones regulares que determinan los tipos de cadena para diferentes campos de datos. A partir de ah\u00ed, el usuario puede determinar cu\u00e1ntos registros est\u00e1n sucios o no se ajustan a una codificaci\u00f3n determinada.<\/p>\n<p>Hacerlo puede ayudar a revelar estad\u00edsticas de datos cruciales que incluyen, pero no se limitan a:<\/p>\n<ol>\n<li>Presencia de valores nulos, por ejemplo, falta de direcciones de correo electr\u00f3nico en los formularios de captaci\u00f3n de clientes potenciales<\/li>\n<li>N\u00famero de registros con espacios iniciales y finales, por ejemplo, David Matthews<\/li>\n<li>Problemas de puntuaci\u00f3n, por ejemplo, hotmail,com en lugar de Hotmail.com<\/li>\n<li>Cuestiones de carcasa, por ejemplo, NUEVA YORK, DAVID mATTHEWS, MICROSOFT<\/li>\n<li>Presencia de letras en n\u00fameros y viceversa, por ejemplo, TEL-516 570-9251 para el n\u00famero de contacto y NJ43 para el estado<\/li>\n<\/ol>\n<h4><b>Deduplicaci\u00f3n y vinculaci\u00f3n de registros<\/b><\/h4>\n<p>Mediante el cotejo, se unen varios registros potencialmente relacionados con la misma entidad para eliminar los duplicados, o se deduplican utilizando identificadores \u00fanicos. Las t\u00e9cnicas de concordancia pueden variar en funci\u00f3n del tipo de campo, como el exacto, el difuso o el fon\u00e9tico.<\/p>\n<p>En el caso de los nombres, por ejemplo, se suele utilizar la coincidencia exacta cuando los identificadores \u00fanicos, como el SSN o la direcci\u00f3n, son precisos en todo el conjunto de datos. Si los identificadores \u00fanicos son inexactos o inv\u00e1lidos, la concordancia difusa resulta ser una forma de concordancia mucho m\u00e1s fiable para emparejar f\u00e1cilmente dos registros similares (por ejemplo, John Snow y Jon Snowden).<\/p>\n<p>La deduplicaci\u00f3n y la vinculaci\u00f3n de registros, en la mayor\u00eda de los casos, se entienden como una misma cosa. Sin embargo, una diferencia clave es que la primera consiste en <a href=\"https:\/\/dataladder.com\/es\/el-temor-a-los-datos-duplicados-una-guia-para-la-deduplicacion-de-datos\/\" target=\"_blank\" rel=\"noopener\">detectar los duplicados<\/a> y consolidarlos dentro del mismo conjunto de datos (es decir, normalizar el esquema), mientras que la segunda consiste en cotejar los datos deduplicados en otros conjuntos o fuentes de datos.<\/p>\n<h4><b>Canonicalizaci\u00f3n<\/b><\/h4>\n<p>La canonizaci\u00f3n es otro paso clave en ER, donde las entidades que tienen m\u00faltiples representaciones se convierten en una forma est\u00e1ndar. Se trata de tomar la informaci\u00f3n m\u00e1s completa como registro final y dejar fuera los datos at\u00edpicos o ruidosos que puedan distorsionar los datos.<\/p>\n<h4><b>Bloqueo<\/b><\/h4>\n<p>Cuando se buscan coincidencias para una entidad en cientos y miles de registros, las combinaciones potenciales que podr\u00edan dar lugar a las coincidencias correctas pueden llegar a ser miles (si no millones). Para evitar este problema, se utiliza el bloqueo para limitar los posibles emparejamientos mediante reglas empresariales espec\u00edficas.<\/p>\n<h3><b>Desaf\u00edos de la resoluci\u00f3n de entidades<\/b><\/h3>\n<p>A pesar de los numerosos enfoques y t\u00e9cnicas disponibles para la ER, \u00e9sta se queda corta en varios frentes. Entre ellas se encuentran:<\/p>\n<h4><b>1. La ER s\u00f3lo funciona bien si los datos son ricos y coherentes<\/b><\/h4>\n<p>Quiz\u00e1s el mayor problema de la ER es que la precisi\u00f3n de las coincidencias depende de la riqueza de los datos y de la coherencia entre los conjuntos de datos.<\/p>\n<p>Por ejemplo, el emparejamiento determinista es bastante sencillo. Digamos que tiene \u00abMike Rogers\u00bb en la base de datos 1 y \u00abMike Rogers\u00bb en la base de datos 2. Mediante una simple vinculaci\u00f3n de registros (o coincidencia exacta), podemos identificar f\u00e1cilmente que uno es un duplicado de otro.<\/p>\n<p>Sin embargo, el cotejo probabil\u00edstico, cuando existen registros de datos similares en forma de errores ortogr\u00e1ficos, abreviaturas o apodos (por ejemplo, \u00abMike Rogers\u00bb en la base de datos 1 y \u00abMichael Rogers\u00bb en la base de datos 2), es otra historia. Un identificador \u00fanico (como la direcci\u00f3n, el SSN o la fecha de nacimiento) puede no ser consistente en todas las bases de datos y cualquier tipo de coincidencia exacta o determinista ser\u00e1 casi imposible, especialmente cuando se trata de datos en grandes vol\u00famenes.<\/p>\n<h4><b>2. Los algoritmos de ER no se adaptan bien<\/b><\/h4>\n<p>Los proyectos empresariales de Big Data que manejan terabytes de datos en el sector financiero, gubernamental o sanitario tienen demasiada informaci\u00f3n para que la ER tradicional, la vinculaci\u00f3n de registros y la deduplicaci\u00f3n funcionen correctamente. Las reglas de negocio necesarias para que los algoritmos funcionen tendr\u00edan que tener en cuenta datos mucho m\u00e1s amplios para funcionar de forma coherente.<\/p>\n<p>Por ejemplo, la t\u00e9cnica de bloqueo -utilizada para limitar los pares no coincidentes al encontrar duplicados- depende de la calidad de los campos del registro. Si tiene campos que contienen errores, valores que faltan y variaciones, puede acabar insertando datos en los bloques equivocados y enfrentarse a un mayor n\u00famero de falsos negativos.<\/p>\n<h4><b>3. Las urgencias manuales son complejas<\/b><\/h4>\n<p>No es infrecuente que las empresas o instituciones que manejan grandes vol\u00famenes de datos opten por proyectos de ER internos. La raz\u00f3n es que pueden hacer uso de recursos t\u00e9cnicos (ingenieros de software, consultores, administradores de bases de datos) sin tener que comprar ninguna de las herramientas de resoluci\u00f3n de entidades disponibles en el mercado.<\/p>\n<p>Hay algunos problemas con esto. En primer lugar, la resoluci\u00f3n de entidades no es un subconjunto del desarrollo de software. Claro, hay algoritmos y t\u00e9cnicas de bloqueo disponibles p\u00fablicamente que podr\u00edan ser \u00fatiles. Pero en el gran esquema de las cosas, las habilidades requeridas son muy diferentes. El usuario deber\u00e1:<\/p>\n<ol>\n<li>Combinar fuentes de datos dispares, estructuradas y no estructuradas<\/li>\n<li>Conozca los diferentes tipos de codificaci\u00f3n, los apodos y las variaciones para la precisi\u00f3n de las coincidencias<\/li>\n<li>Saber c\u00f3mo resolver los registros de entidades para diferentes casos de uso<\/li>\n<li>Garantizar la complementariedad de las diferentes t\u00e9cnicas de emparejamiento para lograr la coherencia<\/li>\n<\/ol>\n<p>Puede ser improbable que el usuario adecuado cumpla todas estas condiciones, e incluso si es posible, existe el riesgo de que abandone la empresa, lo que puede poner en peligro todo el proyecto.<\/p>\n<h3><b>4 razones por las que las herramientas de resoluci\u00f3n de entidades son mejores<\/b><\/h3>\n<p>Las herramientas de resoluci\u00f3n de entidades pueden ofrecer muchas ventajas que las ER tradicionales no pueden ofrecer. Entre ellas se encuentran:<\/p>\n<h4><b>1. Mayor precisi\u00f3n de los partidos<\/b><\/h4>\n<p>Las herramientas dedicadas a la resoluci\u00f3n de entidades que cuentan con sofisticados algoritmos de correspondencia difusa y capacidades de resoluci\u00f3n de entidades pueden ofrecer resultados de vinculaci\u00f3n y deduplicaci\u00f3n de registros mucho mejores que los algoritmos comunes de ER.<\/p>\n<p>Cuando se trata de conjuntos de datos heterog\u00e9neos, encontrar la similitud de dos registros puede ser excepcionalmente dif\u00edcil debido a los diferentes tipos de entidades, codificaci\u00f3n, cuestiones de formato e idiomas. Los cambios de esquema tambi\u00e9n pueden suponer un problema. Las organizaciones sanitarias, por ejemplo, utilizan bases de datos tanto SQL como NoSQL, y convertir todos los datos en un esquema predefinido mediante el cotejo de esquemas y el intercambio de datos puede ser arriesgado, ya que se puede perder mucha informaci\u00f3n valiosa en el proceso.<\/p>\n<p>Adem\u00e1s, un analista de datos puede tener que utilizar varias m\u00e9tricas de cadenas para realizar una correspondencia difusa de forma eficaz, como la distancia Levenshtein, la distancia Jaro-Winkler, la distancia Damerau-Levenshtein y otras. Incorporar todo esto manualmente para mejorar la precisi\u00f3n de los partidos puede ser problem\u00e1tico.<\/p>\n<p>Por otro lado, las herramientas de resoluci\u00f3n de entidades pueden vincular sin problemas los registros empleando una amplia gama de m\u00e9tricas de cadena y otros algoritmos para ofrecer resultados de coincidencia m\u00e1s elevados.<\/p>\n<h4><b>2. Menor tiempo hasta el primer resultado<\/b><\/h4>\n<p>En la mayor\u00eda de los casos, el tiempo es cr\u00edtico para los proyectos de ER, especialmente en el caso de las iniciativas de gesti\u00f3n de datos maestros (MDM) que requieren una \u00fanica fuente de verdad. La informaci\u00f3n relativa a una entidad puede cambiar r\u00e1pidamente en semanas o meses, lo que puede plantear graves riesgos para la calidad de los datos.<\/p>\n<p>Supongamos que una organizaci\u00f3n de ventas y marketing B2B quiere realizar campa\u00f1as en sus cuentas de primer nivel. Lo ideal es que se asegure de que sus clientes potenciales no han cambiado de trabajo, cambiado de cargo o se han jubilado antes de gastar en marketing. En estos casos, es fundamental hacer las urgencias dentro de un plazo.<\/p>\n<p>La ER, si se hace manualmente, puede tardar hasta m\u00e1s de 6 meses, tiempo en el que muchos registros de las bases de datos pueden quedar obsoletos e inexactos. Sin embargo, las herramientas de resoluci\u00f3n de entidades pueden tardar la mitad de tiempo y las m\u00e1s avanzadas pueden dar un resultado en 15 minutos.<\/p>\n<h4><b>3. Mejor escalabilidad<\/b><\/h4>\n<p>Las herramientas de resoluci\u00f3n de entidades son mucho m\u00e1s h\u00e1biles a la hora de ingerir datos desde m\u00faltiples puntos y ejecutar tareas de <a href=\"https:\/\/dataladder.com\/es\/software-de-vinculacion-de-registros\/\" target=\"_blank\" rel=\"noopener\">vinculaci\u00f3n<\/a>, deduplicaci\u00f3n y <a href=\"https:\/\/dataladder.com\/es\/software-de-limpieza-de-datos-herramienta-de-limpieza-de-datos-crm-rapida-y-rentable\/\">limpieza de registros<\/a> a una escala mucho mayor. Las bases de datos gubernamentales, como las que contienen datos de recaudaci\u00f3n de impuestos y censos, almacenan millones (si no billones) de registros. Una instituci\u00f3n gubernamental que decida hacer ER para la prevenci\u00f3n del fraude, por ejemplo, se ver\u00eda limitada en el uso de enfoques manuales de ER y algoritmos. Un usuario se ver\u00eda inundado por los datos con los que hay que trabajar y cualquier regla de negocio para las t\u00e9cnicas de bloqueo -para minimizar el n\u00famero de comparaciones similares- ser\u00eda in\u00fatil.<\/p>\n<p>Sin embargo, las herramientas de resoluci\u00f3n de entidades no s\u00f3lo pueden <a href=\"https:\/\/dataladder.com\/es\/importacion-de-datos-integre-datos-de-fuentes-dispares\/\">importar datos<\/a> de diversas fuentes, sino que tambi\u00e9n garantizan que su eficacia en materia de ER se mantenga intacta en grandes vol\u00famenes de datos.<\/p>\n<h4><b>4. Ahorro de costes<\/b><\/h4>\n<p>Las herramientas de resoluci\u00f3n de entidades, sobre todo para las aplicaciones de nivel empresarial, pueden suponer una inversi\u00f3n considerable. Los profesionales de los datos encargados de las urgencias pueden ser reacios a considerar la opci\u00f3n s\u00f3lo por esta raz\u00f3n. Pueden razonar que hacerlo manualmente ser\u00eda mucho m\u00e1s rentable y mejorar\u00eda sus posibilidades de promoci\u00f3n.<\/p>\n<p>Aunque esto puede parecer razonable a primera vista, los costes de los retrasos en el proyecto, la escasa precisi\u00f3n de la concordancia y los recursos de mano de obra pueden acabar siendo mayores que los de una herramienta de ER.<\/p>\n<h3><b>C\u00f3mo elegir el software de resoluci\u00f3n de entidades adecuado<\/b><\/h3>\n<p>La elecci\u00f3n del <a href=\"https:\/\/dataladder.com\/es\/software-de-resolucion-de-entidades-la-resolucion-de-entidades-mas-rapida-y-precisa-del-sector\/\" target=\"_blank\" rel=\"noopener\">software de resoluci\u00f3n de entidades<\/a> adecuado es igualmente importante. Muchas herramientas de resoluci\u00f3n de entidades difieren en sus caracter\u00edsticas, alcance y valor.<\/p>\n<h4><b>Importar fuentes de datos distintas<\/b><\/h4>\n<p>Las empresas pueden tener datos almacenados en una gran variedad de formatos y fuentes, como Excel, archivos delimitados, aplicaciones web, bases de datos y CRM. Un software de resoluci\u00f3n de entidades debe ser capaz de importar datos de fuentes dispares para el caso de uso espec\u00edfico.<\/p>\n<p>El m\u00f3dulo de importaci\u00f3n de DataMatch Enterprise le permite obtener datos en varios formatos, como se muestra arriba.<\/p>\n<h4><b>Perfiles y limpieza de datos a escala<\/b><\/h4>\n<p>El software de resoluci\u00f3n de entidades adecuado tambi\u00e9n debe ser capaz de perfilar y limpiar los datos antes de cualquier esfuerzo de deduplicaci\u00f3n y vinculaci\u00f3n de registros. <a href=\"https:\/\/dataladder.com\/es\/productos\/datamatch-enterprise-calificado-como-el-producto-numero-uno-para-la-gestion-de-la-calidad-de-los-datos\/\" target=\"_blank\" rel=\"noopener\">DataMatch Enterprise<\/a>, mediante patrones preconfigurados basados en expresiones Regex, puede determinar los registros v\u00e1lidos e inv\u00e1lidos, los nulos, los distintos, los espacios iniciales y finales, etc.<\/p>\n<p><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Profiling.png\" sizes=\"(max-width: 602px) 100vw, 602px\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Profiling.png 602w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Profiling-300x127.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Profiling-600x255.png 600w\" alt=\"\" width=\"602\" height=\"255\" \/><\/p>\n<p>Una vez generado el perfil, los datos pueden ser limpiados utilizando varias funcionalidades como:<\/p>\n<ol>\n<li>Fusi\u00f3n de campos<\/li>\n<li>Personajes a eliminar<\/li>\n<li>Caracteres a sustituir<\/li>\n<li>N\u00fameros para eliminar y m\u00e1s<\/li>\n<\/ol>\n<p><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Cleansing.png\" sizes=\"(max-width: 602px) 100vw, 602px\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Cleansing.png 602w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Cleansing-300x156.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Cleansing-600x313.png 600w\" alt=\"\" width=\"602\" height=\"313\" \/><\/p>\n<h4><b>Capacidades s\u00f3lidas de emparejamiento<\/b><\/h4>\n<p>Hay muchas herramientas de resoluci\u00f3n de entidades que dicen proporcionar una alta puntuaci\u00f3n de coincidencia. Sin embargo, la precisi\u00f3n de las comparaciones est\u00e1 vinculada a la sofisticaci\u00f3n de los algoritmos utilizados para cotejar los registros dentro y a trav\u00e9s de m\u00faltiples conjuntos de datos. DataMatch Enterprise emplea una serie de tipos de coincidencias (exactas, difusas, fon\u00e9ticas, m\u00e9tricas de cadena) para establecer la distancia entre entidades y hace uso de bibliotecas espec\u00edficas de dominio (apodos, direcciones, n\u00fameros de tel\u00e9fono) para establecer una puntuaci\u00f3n de coincidencia superior a la del sector.<\/p>\n<p>Un <a href=\"https:\/\/www.kdnuggets.com\/2014\/10\/dataladder-outperforms-ibm-sas-record-linkage.html\" target=\"_blank\" rel=\"noopener\">estudio independiente realizado por la Universidad de Curtin<\/a> descubri\u00f3 que la precisi\u00f3n de las coincidencias de DataMatch superaba a la de otros proveedores, como Quality Stage de IBM y SAS Dataflux.<\/p>\n<p><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Data-Ladder-v-IBM-SAS-In-House-1024x483.png\" sizes=\"(max-width: 1024px) 100vw, 1024px\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Data-Ladder-v-IBM-SAS-In-House-1024x483.png 1024w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Data-Ladder-v-IBM-SAS-In-House-300x142.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Data-Ladder-v-IBM-SAS-In-House-768x363.png 768w, https:\/\/dataladder.com\/wp-content\/uploads\/2021\/03\/Data-Ladder-v-IBM-SAS-In-House.png 1379w\" alt=\"\" width=\"1024\" height=\"483\" \/><\/p>\n<h3><b>Nota final<\/b><\/h3>\n<p>Por muy crucial que sea para las empresas hacer ER, llevar a cabo manualmente la deduplicaci\u00f3n, la vinculaci\u00f3n de registros y otras tareas de ER tiene serios l\u00edmites cuando se trata de cotejar datos en millones y billones de registros. Utilizando un software de resoluci\u00f3n de entidades como DataMatch Enterprise, las empresas est\u00e1n en una posici\u00f3n mucho mejor para alcanzar sus objetivos empresariales desde el punto de vista de la escalabilidad, el coste y los resultados.<\/p>\n<p>Para obtener m\u00e1s informaci\u00f3n sobre DataMatch Enterprise, haga clic en la<a href=\"https:\/\/dataladder.com\/es\/software-de-resolucion-de-entidades-la-resolucion-de-entidades-mas-rapida-y-precisa-del-sector\/\" target=\"_blank\" rel=\"noopener\"> p\u00e1gina de la soluci\u00f3n Entity Resolution<\/a> o <a href=\"https:\/\/dataladder.com\/es\/contacta-con-nosotros-escalera-de-datos\/\" target=\"_blank\" rel=\"noopener\">p\u00f3ngase en<\/a> contacto con nuestro equipo de ventas.<\/p>\n<p><img src=\"https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/fuzzy-whitepaper2.png\" sizes=\"(max-width: 887px) 100vw, 887px\" srcset=\"https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/fuzzy-whitepaper2.png 887w, https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/fuzzy-whitepaper2-300x183.png 300w, https:\/\/dataladder.com\/wp-content\/uploads\/2019\/05\/fuzzy-whitepaper2-768x468.png 768w\" alt=\"\" width=\"887\" height=\"541\" \/><\/p>\n<p><b>C\u00f3mo funcionan las mejores soluciones de concordancia difusa de su clase: Combinando algoritmos establecidos y propios<\/b><\/p>\n<p><a role=\"button\" href=\"https:\/\/content.dataladder.com\/How-Best-In-Class-Fuzzy-Matching-Solutions-Work-Combining-Established-and-Proprietary-Algorithms-WP.pdf\"><br \/>\nDescargar<br \/>\n<\/a><\/p>\n<p>Inicie su prueba gratuita hoy mismo<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Datos estructurados sucios y desestructurados, m\u00e1s de una docena de variaciones de nombre y definiciones de campo incoherentes en fuentes dispares. Esta lata de gusanos es un riesgo ocupacional casi b\u00e1sico para cualquier analista de datos que trabaje en un proyecto con miles de registros. Y las implicaciones son cualquier cosa menos ordinarias: Las instituciones [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":58386,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"","_lmt_disable":"","_links_to":"","_links_to_target":""},"categories":[1264],"tags":[574,605,475,487,670],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v19.9 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder\" \/>\n<meta property=\"og:description\" content=\"Datos estructurados sucios y desestructurados, m\u00e1s de una docena de variaciones de nombre y definiciones de campo incoherentes en fuentes dispares. Esta lata de gusanos es un riesgo ocupacional casi b\u00e1sico para cualquier analista de datos que trabaje en un proyecto con miles de registros. Y las implicaciones son cualquier cosa menos ordinarias: Las instituciones [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\" \/>\n<meta property=\"og:site_name\" content=\"Data Ladder\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/web.facebook.com\/DataLadderSoftware\" \/>\n<meta property=\"article:published_time\" content=\"2021-03-31T04:00:00+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-01-01T16:35:21+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/09\/pexels-photo-97077.jpeg\" \/>\n\t<meta property=\"og:image:width\" content=\"1125\" \/>\n\t<meta property=\"og:image:height\" content=\"750\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"lbarrera\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"lbarrera\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data2\" content=\"14 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\"},\"author\":{\"name\":\"lbarrera\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\"},\"headline\":\"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales\",\"datePublished\":\"2021-03-31T04:00:00+00:00\",\"dateModified\":\"2026-01-01T16:35:21+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\"},\"wordCount\":2996,\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"keywords\":[\"comparaci\u00f3n de datos\",\"enlace de registros\",\"Limpieza de datos\",\"Perfilado de datos\",\"Preparaci\u00f3n de datos\"],\"articleSection\":[\"Herramientas de calidad de datos\"],\"inLanguage\":\"es\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\",\"url\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\",\"name\":\"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder\",\"isPartOf\":{\"@id\":\"https:\/\/dataladder.com\/es\/#website\"},\"datePublished\":\"2021-03-31T04:00:00+00:00\",\"dateModified\":\"2026-01-01T16:35:21+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/dataladder.com\/es\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/dataladder.com\/es\/#website\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"name\":\"Data Ladder\",\"description\":\"Enterprise Data Profiling, Cleansing, and Matching\",\"publisher\":{\"@id\":\"https:\/\/dataladder.com\/es\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/dataladder.com\/es\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/dataladder.com\/es\/#organization\",\"name\":\"Data Ladder\",\"url\":\"https:\/\/dataladder.com\/es\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"contentUrl\":\"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png\",\"width\":413,\"height\":408,\"caption\":\"Data Ladder\"},\"image\":{\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.linkedin.com\/company\/dataladder-llc\/\",\"https:\/\/web.facebook.com\/DataLadderSoftware\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b\",\"name\":\"lbarrera\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g\",\"caption\":\"lbarrera\"},\"url\":\"https:\/\/dataladder.com\/es\/author\/lbarrera\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/","og_locale":"es_ES","og_type":"article","og_title":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder","og_description":"Datos estructurados sucios y desestructurados, m\u00e1s de una docena de variaciones de nombre y definiciones de campo incoherentes en fuentes dispares. Esta lata de gusanos es un riesgo ocupacional casi b\u00e1sico para cualquier analista de datos que trabaje en un proyecto con miles de registros. Y las implicaciones son cualquier cosa menos ordinarias: Las instituciones [&hellip;]","og_url":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/","og_site_name":"Data Ladder","article_publisher":"https:\/\/web.facebook.com\/DataLadderSoftware","article_published_time":"2021-03-31T04:00:00+00:00","article_modified_time":"2026-01-01T16:35:21+00:00","og_image":[{"width":1125,"height":750,"url":"https:\/\/dataladder.com\/wp-content\/uploads\/2021\/09\/pexels-photo-97077.jpeg","type":"image\/jpeg"}],"author":"lbarrera","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"lbarrera","Tiempo de lectura":"14 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#article","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/"},"author":{"name":"lbarrera","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b"},"headline":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales","datePublished":"2021-03-31T04:00:00+00:00","dateModified":"2026-01-01T16:35:21+00:00","mainEntityOfPage":{"@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/"},"wordCount":2996,"publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"keywords":["comparaci\u00f3n de datos","enlace de registros","Limpieza de datos","Perfilado de datos","Preparaci\u00f3n de datos"],"articleSection":["Herramientas de calidad de datos"],"inLanguage":"es"},{"@type":"WebPage","@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/","url":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/","name":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales - Data Ladder","isPartOf":{"@id":"https:\/\/dataladder.com\/es\/#website"},"datePublished":"2021-03-31T04:00:00+00:00","dateModified":"2026-01-01T16:35:21+00:00","breadcrumb":{"@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/dataladder.com\/es\/guia-detallada-para-el-uso-de-herramientas-de-resolucion-de-entidades-en-proyectos-de-datos-empresariales\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/dataladder.com\/es\/"},{"@type":"ListItem","position":2,"name":"Gu\u00eda detallada para el uso de herramientas de resoluci\u00f3n de entidades en proyectos de datos empresariales"}]},{"@type":"WebSite","@id":"https:\/\/dataladder.com\/es\/#website","url":"https:\/\/dataladder.com\/es\/","name":"Data Ladder","description":"Enterprise Data Profiling, Cleansing, and Matching","publisher":{"@id":"https:\/\/dataladder.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/dataladder.com\/es\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/dataladder.com\/es\/#organization","name":"Data Ladder","url":"https:\/\/dataladder.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","contentUrl":"https:\/\/dataladder.com\/wp-content\/uploads\/2018\/06\/DL-Logo-Ball-30.png","width":413,"height":408,"caption":"Data Ladder"},"image":{"@id":"https:\/\/dataladder.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/dataladder-llc\/","https:\/\/web.facebook.com\/DataLadderSoftware"]},{"@type":"Person","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/6cc3d6b3c83c611546541b5eb2d1e21b","name":"lbarrera","image":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/dataladder.com\/es\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/5198cb4dd374e7d879a15a9cf20299b3?s=96&d=mm&r=g","caption":"lbarrera"},"url":"https:\/\/dataladder.com\/es\/author\/lbarrera\/"}]}},"modified_by":"Farooq","_links":{"self":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62380"}],"collection":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/comments?post=62380"}],"version-history":[{"count":4,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62380\/revisions"}],"predecessor-version":[{"id":75603,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/posts\/62380\/revisions\/75603"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media\/58386"}],"wp:attachment":[{"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/media?parent=62380"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/categories?post=62380"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dataladder.com\/es\/wp-json\/wp\/v2\/tags?post=62380"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}