Software de concordancia difusa
Confiado por
Confiado por
Definición
¿Qué es la concordancia difusa?
La concordancia difusa se utiliza para vincular datos que residen en tablas o fuentes dispares que no contienen identificadores únicos o claves primarias y foráneas adecuadas. En estos casos, se utiliza una combinación de atributos no únicos (como el apellido, el nombre de la empresa o la dirección) para encontrar la probabilidad de que dos registros sean similares.
Para encontrar coincidencias con exactitud, utilizamos una combinación de técnicas de coincidencia de datos probabilísticas propias y establecidas que calculan la probabilidad de que dos cadenas sean similares. En lugar de una respuesta booleana (en términos de Sí o No), un algoritmo de coincidencia difusa emite un valor porcentual o un término relativo que marca el índice de similitud.
Proceso
¿Cómo funciona el fuzzy matching?
Conexión de la fuente de datos
Conecte la base de datos, mapee los campos y seleccione una combinación de campos para la coincidencia difusa que tengan una alta probabilidad de ser similares en caso de que los registros pertenezcan a la misma entidad.
Cálculo de la puntuación difusa
Las puntuaciones de coincidencia se calculan utilizando la mejor combinación de algoritmos difusos propios y establecidos, como la distancia Levenstein, la distancia de edición, el Soundex, el Metáfono o la similitud de coseno, etc.
Configuración de la coincidencia difusa
Seleccione los pesos adecuados (dar más prioridad a unos campos que a otros), los niveles de umbral (establecer el límite entre las coincidencias y las no coincidencias) y el tipo de coincidencia difusa (basada en caracteres, fonética, etc.).
Clasificación y evaluación
Las puntuaciones se utilizan para clasificar y agrupar los registros como coincidentes o no coincidentes. Dependiendo de la naturaleza de los datos, puede encontrar algunos resultados falsos positivos y negativos que requieren una evaluación adicional.
Solución
Deje que Data Ladder se encargue de su proceso de cotejo difuso
Vea DataMatch Enterprise en funcionamiento
DataMatch Enterprise es una herramienta de cotejo difuso muy visual e intuitiva, que automatiza todo el proceso de cotejo difuso, liberándole del esfuerzo y el trabajo manual necesarios para cotejar los campos de datos. El DME identifica de forma inteligente acrónimos, inversiones y variaciones de nombres, palabras fonéticas, errores ortográficos y abreviaturas.
El ISD aprovecha una serie de algoritmos de concordancia difusa, junto con la concordancia exacta y fonética, para identificar y concordar registros en millones de puntos de datos procedentes de fuentes de datos múltiples y dispares, como bases de datos relacionales, aplicaciones web y CRM.
Beneficios de negocio
¿Cómo puede beneficiarle el fuzzy matching?
Fácil de configurar
Ajuste la sensibilidad de la coincidencia para minimizar los falsos positivos o auméntela unos cuantos grados si prefiere una entrada más manual para la precisión.
Crear una vista de cliente única
Rompa los silos de datos detectando las coincidencias dentro y entre fuentes de datos dispares para crear registros de oro para obtener una visión completa de los clientes.
Mayor precisión en la concordancia
A diferencia del emparejamiento determinista, los algoritmos difusos encuentran coincidencias más precisas al detectar errores en las claves, abreviaturas y otras variaciones.
Reducir la carga de los recursos informáticos
El rápido autoservicio de coincidencias difusas alivia la carga del departamento de TI y de los recursos, acelerando el tiempo de obtención de información hasta en un 80%.