Software de concordancia difusa

Encuentre coincidencias entre fuentes de datos dispares de forma rápida y precisa, y cree configuraciones de coincidencias escalables y repetibles. Variaciones difusas, con claves erróneas y abreviadas con un mínimo de falsos positivos.

Confiado por

Confiado por

Definición

¿Qué es la concordancia difusa?

La concordancia difusa se utiliza para vincular datos que residen en tablas o fuentes dispares que no contienen identificadores únicos o claves primarias y foráneas adecuadas. En estos casos, se utiliza una combinación de atributos no únicos (como el apellido, el nombre de la empresa o la dirección) para encontrar la probabilidad de que dos registros sean similares.

Para encontrar coincidencias con exactitud, utilizamos una combinación de técnicas de coincidencia de datos probabilísticas propias y establecidas que calculan la probabilidad de que dos cadenas sean similares. En lugar de una respuesta booleana (en términos de o No), un algoritmo de coincidencia difusa emite un valor porcentual o un término relativo que marca el índice de similitud.

Proceso

¿Cómo funciona el fuzzy matching?

Conexión de la fuente de datos

Conecte la base de datos, mapee los campos y seleccione una combinación de campos para la coincidencia difusa que tengan una alta probabilidad de ser similares en caso de que los registros pertenezcan a la misma entidad.

Cálculo de la puntuación difusa

Las puntuaciones de coincidencia se calculan utilizando la mejor combinación de algoritmos difusos propios y establecidos, como la distancia Levenstein, la distancia de edición, el Soundex, el Metáfono o la similitud de coseno, etc.

Configuración de la coincidencia difusa

Seleccione los pesos adecuados (dar más prioridad a unos campos que a otros), los niveles de umbral (establecer el límite entre las coincidencias y las no coincidencias) y el tipo de coincidencia difusa (basada en caracteres, fonética, etc.).

Clasificación y evaluación

Las puntuaciones se utilizan para clasificar y agrupar los registros como coincidentes o no coincidentes. Dependiendo de la naturaleza de los datos, puede encontrar algunos resultados falsos positivos y negativos que requieren una evaluación adicional.

Solución

Deje que Data Ladder se encargue de su proceso de cotejo difuso

Vea DataMatch Enterprise en funcionamiento

DataMatch Enterprise es una herramienta de cotejo difuso muy visual e intuitiva, que automatiza todo el proceso de cotejo difuso, liberándole del esfuerzo y el trabajo manual necesarios para cotejar los campos de datos. El DME identifica de forma inteligente acrónimos, inversiones y variaciones de nombres, palabras fonéticas, errores ortográficos y abreviaturas.

El ISD aprovecha una serie de algoritmos de concordancia difusa, junto con la concordancia exacta y fonética, para identificar y concordar registros en millones de puntos de datos procedentes de fuentes de datos múltiples y dispares, como bases de datos relacionales, aplicaciones web y CRM.

Beneficios de negocio

¿Cómo puede beneficiarle el fuzzy matching?

Fácil de configurar

Ajuste la sensibilidad de la coincidencia para minimizar los falsos positivos o auméntela unos cuantos grados si prefiere una entrada más manual para la precisión.

Crear una vista de cliente única

Rompa los silos de datos detectando las coincidencias dentro y entre fuentes de datos dispares para crear registros de oro para obtener una visión completa de los clientes.

Mayor precisión en la concordancia

A diferencia del emparejamiento determinista, los algoritmos difusos encuentran coincidencias más precisas al detectar errores en las claves, abreviaturas y otras variaciones.

Reducir la carga de los recursos informáticos

El rápido autoservicio de coincidencias difusas alivia la carga del departamento de TI y de los recursos, acelerando el tiempo de obtención de información hasta en un 80%.