Blog

Evolución de la concordancia: Cómo encontrar coincidencias en toda la empresa y afinar los resultados a la manera moderna



A



medida que los datos



sufren un cambio de paradigma



también lo hacen

los sistemas, procesos y enfoques implicados. Los sistemas heredados están muriendo. Lote Las tuberías ETL se están quedando poco a poco obsoletas. La propiedad se está alejando de De la TI a la empresa.
Funciones como el cotejo de datos y la preparación de datos están


evolucionando


de manuales, basadas en consultas, programáticas a automatizadas, de apuntar y hacer clic, centradas en el negocio.


-centrado en el negocio




centrados en el negocio.

Existe un enfoque moderno para el cotejo de datos, que promete altos índices de precisión, bajos niveles de falsos positivos y que sólo lleva minutos en lugar de semanas y meses.

Esta guía sobre el cotejo moderno de datos explica los procesos implicados, los diferentes tipos de escenarios en los que este enfoque ahorra tiempo a la vez que aumenta la eficiencia y, por último, cómo los usuarios pueden ajustar los parámetros de cotejo para obtener las mejores coincidencias posibles.

¿Qué es la concordancia de datos?

Elcotejo de datos compara los datos de varios registros para determinar los campos que se refieren a la misma entidad. En pocas palabras, el cotejo de datos permite al usuario detectar registros duplicados y/o fusionar registros idénticos. Se realiza mediante algoritmos establecidos que están diseñados para comparar diferentes tipos de datos, como cadenas, fechas y números enteros. Dado que la naturaleza de los datos es cada vez más compleja, el cotejo ya no se limita a comparar dos registros, sino que implica procesos clave como la elaboración de perfiles de datos, la integridad de los datos, la precisión de los mismos, etc.

Conceptos básicos – Emparejamiento determinista y probabilístico

Conocida por múltiples términos, vinculación de registros o datos, resolución de entidades, identificación de objetos o correspondencia de campos; la correspondencia de datos es la tarea de identificar, cotejar y fusionar registros que se refieren a la misma entidad desde dentro o a través de varias bases de datos.

Tradicionalmente, el cotejo de datos se realizaba mediante la ejecución de consultas que utilizaban complejos algoritmos y fórmulas para cotejar los registros. Las coincidencias deterministas y probabilísticas son los dos enfoques de coincidencia de datos más comunes que hacen uso de algoritmos como la distancia de edición, Soundex, distancia Levenshtein para hacer coincidir las cadenas y devolver un resultado de coincidencia.

El método determinista es sencillo. Si tiene dos campos de datos que tienen las mismas propiedades, puede utilizar este método para encontrar coincidencias. La condición es que sus datos deben estar limpios y estandarizados. Los identificadores únicos, como los números de la seguridad social, del permiso de conducir o del pasaporte, deben ser precisos. Es más fácil decirlo que hacerlo, sobre todo porque siempre existe la posibilidad de que el usuario cometa errores. Además, al tratarse de información confidencial, hay pocas posibilidades de que las empresas puedan poner sus manos en esta información. Entonces recurren a los números de teléfono, las direcciones de correo electrónico como identificadores únicos. Por otra parte, estos datos siempre están plagados de errores, valores nulos y otros problemas de calidad de los datos.

Un buen ejemplo de cotejo determinista es cuando un banco coteja los números de cuenta de los consumidores con sus nombres y fecha de nacimiento para confirmar las identidades o cuando las tiendas minoristas utilizan los números de las facturas para cotejarlos con los números de los productos para confirmar las ventas de los mismos.

La concordancia determinista funciona bien cuando las reglas están definidas, los datos están limpios y se está seguro de que los identificadores únicos son precisos.

Pero los datos que tenemos hoy en día apenas cumplen estas normas.

De ahí la necesidad de la concordancia probabilística.

El cotejo probabilístico utiliza un enfoque estadístico para medir la probabilidad de que dos registros de clientes representen al mismo individuo. Esta metodología utiliza varios algoritmos de coincidencia difusa para determinar una coincidencia, una no coincidencia o una posible coincidencia. Al igual que una coincidencia determinista, la coincidencia probabilística requiere que los datos estén limpios y estandarizados, pero no tiene que ser «exacta».

Si Juan está escrito como Juanito, una solución inteligente de cotejo de datos debería ser capaz de detectar esto como una posible coincidencia basada en ciertas reglas de negocio que suelen estar predefinidas en una solución comercial.

Un buen ejemplo de concordancia probabilística es cuando una empresa tiene varias direcciones de correo electrónico y números de teléfono (móvil/oficina/domicilio) de la misma persona sin identificadores únicos para determinar la identidad. En este caso, la empresa tendrá que ejecutar varios algoritmos para determinar las identidades a partir de cadenas y valores enteros.

Aquí es donde entran en juego los algoritmos de coincidencia difusa.

En lugar de marcar los registros como «coincidentes» o «no coincidentes», la concordancia difusa identifica la probabilidad de que dos registros sean realmente coincidentes en función de si coinciden o no en los distintos identificadores. A continuación se presenta una lista de las distintas técnicas de concordancia difusa que se utilizan en la actualidad:

  • Distancia de Levenshtein (o distancia de edición)
  • Distancia Damerau-Levenshtein
  • Distancia Jaro-Winkler
  • Distancia del teclado
  • Distancia Kullback-Leibler
  • Índice de Jaccard
  • Metáfono 3
  • Nombre Variante
  • Alineación de sílabas
  • Acrónimo

Puede leer la siguiente guía para saber más sobre el emparejamiento difuso y cómo puede ayudarle a emparejar datos complejos.

Guía de coincidencias difusas

Limpieza y vinculación de datos desordenados en toda la empresa

El cotejo de datos moderno utiliza enfoques tanto deterministas como probabilísticos en función de la naturaleza de los datos y del tipo de cotejo que la organización necesita realizar.

Para ambos métodos, un requisito común a todos los proyectos de correspondencia que tienen éxito es el de la calidad de los datos, que se consigue mediante la preparación de los mismos.

Preparación de los datos para su cotejo

La naturaleza de los datos hoy en día es cualquier cosa menos sencilla. Una entidad puede tener decenas de columnas de datos: números de teléfono (casa, oficina, móvil), direcciones de correo electrónico (personal/profesional), cuentas de redes sociales, identificadores de dispositivos y muchos más. Estos datos son poco precisos.

Para hacer coincidir estos datos, habría que someterlos a un proceso de depuración y normalización.

Las herramientas modernas de cotejo de datos, como DataMatch Enterprise de Data Ladder, permiten un proceso de preparación de datos automatizado.

Estos se resumen como sigue:

Proceso

Propósito

Integración de datos

DataMatch Enterprise permite la integración nativa de más de 500 fuentes de datos, incluyendo los CRM más populares como Salesforce, HubSpot y muchos más

Perfilado de datos

Investigar la exactitud y la integridad de los datos. La creación de perfiles de datos le permite evaluar la salud de sus datos y descubre las filas y columnas que tienen valores perdidos, información corrupta o incompleta, campos nulos y mucho más.

Limpieza de datos + estandarización Utilizar patrones y expresiones regulares para limpiar, ordenar y optimizar los datos para su cotejo. Transforme los datos semiestructurados y sucios en datos limpios y estandarizados.

El proceso de emparejamiento – Creación de definiciones, asignación de reglas

En teoría, el proceso de cotejo de datos parece sencillo: se comparan dos registros, se encuentra la información común entre ambos y se cumple el objetivo de cotejo.

En la práctica, el cotejo de datos es un proceso complejo en el que se intenta determinar que
dos registros se refieren realmente a la misma entidad.

Tomemos como ejemplo la siguiente tabla.

¿Cómo decidiría que los dos registros pertenecen al mismo individuo? ¿O que puedan ser etiquetados como duplicados?

Nombre Apellido Dirección Teléfono
John Doe 1899 PA 0553333
Johnny D 1899 PA 0550123

Una forma de enfocar este caso es decir que, dado que los registros comparten similitudes en cuanto a que Johnny es un apodo popular de John o que ambos apellidos empiezan por D, es probable que sean duplicados. Pero la intuición o las conjeturas no son la forma correcta de hacerlo. De ahí la necesidad de soluciones de concordancia que puedan utilizar múltiples algoritmos de concordancia para determinar si dos registros son similares.

Para empezar, si la tabla tiene identificadores únicos – que en este caso, podría ser el número de teléfono, entonces es fácil determinar una coincidencia. Pero en ausencia de identificadores únicos, tendrá que utilizar una coincidencia determinista o probabilística para determinar la similitud de los registros.

El proceso de emparejamiento se inicia identificando los atributos que probablemente no cambiarán, por ejemplo, los apellidos, la fecha de nacimiento, la altura, el color, etc. A continuación, se asigna un tipo de coincidencia (fonética, exacta, difusa) a cada atributo. Los nombres, por ejemplo, pueden coincidir fonéticamente. Los números y las fechas pueden coincidir por similitud.

Esto está integrado en DataMatch Enterprise.

Seleccione la columna que desee, elija un tipo de coincidencia y comience la coincidencia. También puede configurar la coincidencia en base a tres ajustes críticos: Todos, Entre y Dentro.

  1. Todo: Esto buscará coincidencias entre todas las fuentes de datos integradas en la herramienta. Pero no sólo busca entre ellos, sino que también busca duplicados en *cada uno* de ellos. Tradicionalmente, se tardarían semanas en buscar duplicados en un solo archivo, pero con una solución automatizada, ahora se pueden buscar coincidencias dentro de cada archivo y entre varios archivos.
  2. Entre: Si sólo busca coincidencias entre fuentes y no dentro de las mismas, puede configurar el ajuste de coincidencia a «entre». Indique el número de fuentes de datos que desea cotejar, y la solución ejecutará las coincidencias entre esas fuentes sin buscar duplicados dentro de ellas.

  3. Dentro:
    Si quiere buscar específicamente coincidencias o duplicados dentro de una fuente de datos, esta configuración le permite escanear filas y columnas de esa fuente específica.

A continuación, puede asignar pesos para cada atributo, es decir, determina la importancia que tiene la puntuación de un campo en la puntuación total de la coincidencia. Por ejemplo, si la primera letra de sus registros coincide, la herramienta añadirá una puntuación adicional. Esto es especialmente útil si quiere hacer coincidir cosas como los segundos nombres (A vs Andrews) y apodos, sin embargo, esto debe ser utilizado con cuidado ya que puede sesgar sus resultados.

Debe tener un campo fiable y no modificable, como un número de SSN sobre una dirección de correo electrónico para realizar una coincidencia fiable. Una vez que se ha realizado el cotejo, se puede afinar para obtener resultados aún más precisos.

Cómo ajustar los resultados de la comparación de datos

Para sacar el máximo partido al partido, puedes crear tus reglas de juego. El ISD utiliza un único
Constructor de patrones
para crear reglas de coincidencia personalizadas.

Tomemos el siguiente escenario:

Una empresa tiene dos columnas de números de contacto: móvil y teléfono fijo para cada uno de sus contactos. Desde hace un año, estos datos están duplicados y a varios cientos de filas les falta un número de móvil o de teléfono fijo. La empresa opta por una coincidencia difusa dentro de la fuente de datos para eliminar los contactos duplicados. Después de preparar, limpiar y transformar sus datos, el resultado es una lista consolidada de apellidos únicos con números de teléfono móvil y fijo únicos. La mayoría de las empresas se detendrían aquí.

Pero aquí es donde se pone interesante.

Existe una lista consolidada y única, pero ¿cómo puede la empresa estar segura de que cada contacto tiene el número de móvil y de teléfono fijo correcto?

Resulta que no estaban seguros.

Los números de la columna de móviles no tenían código de país.

Números en varios cien líneas telefónicas fijas columna eran números de móvil.

Aquí es donde se empezaría a afinar los resultados de la comparación de datos.

Con la seguridad de que los datos de los apellidos son únicos, se puede utilizar como identificador único para hacer coincidir sólo la columna de móviles y la de teléfonos fijos. En este caso, el prefijo del país y del código de área eran los diferenciadores entre el móvil y el teléfono fijo. ¿Cómo se afina este partido?

El ISD utiliza un
constructor de patrones
para crear configuraciones de concordancia personalizadas diseñadas para procesos de concordancia complejos como en este caso. Utilizando el creador de patrones, el usuario puede crear una expresión que asigne un prefijo (país + código de área) a todos los números de móvil. La columna de móviles se emparejará con este prefijo y a todos los números sin el prefijo se les asignará el prefijo. A continuación, se cotejan el móvil y el teléfono fijo para determinar si hay duplicados. Si no hay duplicados, se crea una última columna con el móvil actualizado. Dentro de este constructor de patrones, el usuario puede definir el rango de números – por ejemplo, cualquier número menor de 6 dígitos es un número incompleto o inexacto.

Como paso final, haga una copia del resultado final y compare sus registros de coincidencia. Exporta los resultados a una hoja de cálculo y haz un seguimiento de los cambios que vas realizando. El ISD facilita esta tarea, ya que la herramienta almacena copias de todos los resultados de las coincidencias, lo que garantiza que no se pierdan los registros anteriores que se quieran reevaluar.

El ajuste de las coincidencias le ayuda a reducir los falsos positivos y negativos. Las organizaciones no tienen capacidad para gestionar un exceso de falsos positivos, por lo que es necesario definir una coincidencia que no sea amplia ni genérica. Por ejemplo, utilizar el nombre y los apellidos (que suele ser lo más fácil) para realizar una coincidencia dará lugar a un elevado número de falsos positivos, ya que dos individuos distintos pueden tener el mismo nombre y apellido. Por lo tanto, es mejor una definición más estrecha, como un número de teléfono o una dirección de correo electrónico, ya que dos usuarios no tienen el mismo número. En este caso, el número de teléfono debe ser un 100% preciso para ser utilizado como definición de coincidencia.

Algunas funciones esenciales de ajuste de datos en el ISD

DataMatch Enterprise es una potente herramienta de cotejo de datos de autoservicio, automatizada, que permite a los usuarios crear configuraciones de cotejo personalizadas basadas en una serie de ajustes que incluyen el uso de caracteres alfanuméricos, cadenas, dígitos, espacios en blanco, delimitadores y muchos más.

Estas son algunas de las funciones clave que la herramienta utiliza para ofrecer coincidencias muy precisas.


Tipo de coincidencia:
La herramienta permite cinco tipos de coincidencia de datos:


  • Exacto:
    Sólo coincidirá si los campos son iguales

  • Fonética:
    El campo coincidirá cuando suenen igual (Bear y Bare)

  • Numérico:
    Compara valores numéricos

  • Difusa:
    Esto hará coincidir los campos basados en la coincidencia de caracteres (john y jhon) y devolverá una puntuación basada en esa coincidencia y el orden de los caracteres.
  • Nivel: Esto definirá el umbral de la puntuación del partido. (Por ejemplo, if define los apellidos como 70%, entonces todos los registros de ese grupo deben coincidir en un 70% o más).

Identificación de grupos: Esto permite a los usuarios crear campos para la búsqueda cruzada entre dos o más columnas. Por ejemplo, quiere hacer coincidir la columna del nombre del Registro A en la columna del apellido del Registro B o dentro del propio Registro A.


Nivel de grupo:
Puntuación de coincidencia calculada para un ID de grupo basada en el nivel de campo y el peso.


Editor de filtros:
Filtrar columnas mediante
Y/O
y determine los valores que desea mantener en una columna. Por ejemplo, tomando el escenario anterior, es posible que desee mantener los números que sólo comienzan con el código de área de un país.

Fusión de partidos: ¿Y si tiene dos números para una columna? ¿Mantendrías uno y quitarías el otro? A menos que sepa exactamente cuál de ellas es la versión correcta, puede fusionarlas, separadas por un delimitador. De este modo, se conservan los dos resultados que se pueden consultar más tarde.

Por último, el ISD permite exportar registros en más de una docena de formatos. También puede optar por crear un registro de oro después del cotejo que contendrá la versión más precisa y consolidada de sus datos.

Conclusión:

Tradicionalmente, una actividad de cotejo de datos tiene tres objetivos.

  1. Obtener columnas de datos que coincidan
  2. Descubrir las columnas que no coinciden
  3. Obtenga una salida que contenga información verdadera y precisa

Hoy en día, estos objetivos se amplían con el tiempo y las tasas de coincidencia. Las empresas quieren una tasa de coincidencia del 100% en el menor tiempo posible y con un uso mínimo de recursos. Esencialmente, se trata de una demanda de automatización. Las soluciones de nueva generación responden a esta demanda permitiendo a los usuarios perfeccionar y optimizar constantemente sus datos mediante la limpieza, el cotejo y el ajuste del cotejo para obtener resultados más específicos y precisos.

El ISD le ayuda a alcanzar todos estos objetivos.

  1. Somos los mejores en cuanto a precisión de la tasa de coincidencia, superando a SAS e IBM
  2. Sólo se tarda 45 minutos en cotejar millones de filas de datos
  3. Nuestra herramienta está diseñada para que los usuarios empresariales limpien, cotejen y transformen los datos
  4. El usuario puede definir reglas, crear excepciones y optimizar las configuraciones de los partidos según sus necesidades de datos
  5. No requiere conocimientos de lenguaje de programación y es una herramienta de autoservicio para cualquier persona interesada en trabajar en torno a la calidad y la correspondencia de los datos.

¿Quiere saber cómo podemos ayudarle a realizar un ejercicio de correspondencia de datos personalizado? Descargue la versión de prueba gratuita y experimente la conciliación de datos de una forma moderna, mejor y más potente.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.