Software de concordancia difusa

Encuentre coincidencias entre fuentes de datos dispares de forma rápida y precisa, y cree configuraciones de coincidencias escalables y repetibles. Variaciones difusas, con claves erróneas y abreviadas con un mínimo de falsos positivos.

Confiado por

Confiado por

Definición

¿Qué es la concordancia difusa?

La concordancia difusa se utiliza para vincular datos que residen en tablas o fuentes dispares que no contienen identificadores únicos o claves primarias y foráneas adecuadas. En estos casos, se utiliza una combinación de atributos no únicos (como el apellido, el nombre de la empresa o la dirección) para encontrar la probabilidad de que dos registros sean similares.

Para encontrar coincidencias con exactitud, utilizamos una combinación de técnicas de coincidencia de datos probabilísticas propias y establecidas que calculan la probabilidad de que dos cadenas sean similares. En lugar de una respuesta booleana (en términos de o No), un algoritmo de coincidencia difusa emite un valor porcentual o un término relativo que marca el índice de similitud.

Proceso

¿Cómo funciona el fuzzy matching?

Conexión de la fuente de datos

Conecte la base de datos, mapee los campos y seleccione una combinación de campos para la coincidencia difusa que tengan una alta probabilidad de ser similares en caso de que los registros pertenezcan a la misma entidad.

Cálculo de la puntuación difusa

Las puntuaciones de coincidencia se calculan utilizando la mejor combinación de algoritmos difusos propios y establecidos, como la distancia Levenstein, la distancia de edición, el Soundex, el Metáfono o la similitud de coseno, etc.

Configuración de la coincidencia difusa

Seleccione los pesos adecuados (dar más prioridad a unos campos que a otros), los niveles de umbral (establecer el límite entre las coincidencias y las no coincidencias) y el tipo de coincidencia difusa (basada en caracteres, fonética, etc.).

Clasificación y evaluación

Las puntuaciones se utilizan para clasificar y agrupar los registros como coincidentes o no coincidentes. Dependiendo de la naturaleza de los datos, puede encontrar algunos resultados falsos positivos y negativos que requieren una evaluación adicional.

Solución

Deje que Data Ladder se encargue de su proceso de cotejo difuso

Vea DataMatch Enterprise en funcionamiento

DataMatch Enterprise es una herramienta de cotejo difuso muy visual e intuitiva, que automatiza todo el proceso de cotejo difuso, liberándole del esfuerzo y el trabajo manual necesarios para cotejar los campos de datos. El DME identifica de forma inteligente acrónimos, inversiones y variaciones de nombres, palabras fonéticas, errores ortográficos y abreviaturas.

El ISD aprovecha una serie de algoritmos de concordancia difusa, junto con la concordancia exacta y fonética, para identificar y concordar registros en millones de puntos de datos procedentes de fuentes de datos múltiples y dispares, como bases de datos relacionales, aplicaciones web y CRM.

Beneficios de negocio

¿Cómo puede beneficiarle el fuzzy matching?

Fácil de configurar

Ajuste la sensibilidad de la coincidencia para minimizar los falsos positivos o auméntela unos cuantos grados si prefiere una entrada más manual para la precisión.

Crear una vista de cliente única

Rompa los silos de datos detectando las coincidencias dentro y entre fuentes de datos dispares para crear registros de oro para obtener una visión completa de los clientes.

Mayor precisión en la concordancia

A diferencia del emparejamiento determinista, los algoritmos difusos encuentran coincidencias más precisas al detectar errores en las claves, abreviaturas y otras variaciones.

Reducir la carga de los recursos informáticos

El rápido autoservicio de coincidencias difusas alivia la carga del departamento de TI y de los recursos, acelerando el tiempo de obtención de información hasta en un 80%.

Relevante para las aplicaciones del mundo real

Los algoritmos difusos son los más adecuados para encontrar coincidencias cuando los registros tienen errores tipográficos, de sistema y de formato, y problemas de entrada.

Enriquezca los datos para obtener conocimientos más profundos

Al vincular registros similares de fuentes externas, las empresas pueden enriquecer los registros dorados con datos e información complementaria.

Comparemos

¿Qué tan precisa es nuestra solución?

Las implementaciones internas tienen un 10% de posibilidades de perder personal interno, por lo que durante 5 años, la mitad de las implementaciones internas pierden al miembro principal que ejecutó y entendió el programa de emparejamiento.

Se completaron pruebas detalladas en 15 comparaciones de productos diferentes con empresas universitarias, gubernamentales y privadas (registros de 80K a 8M), y se encontraron estos resultados: (Nota: esto incluye el efecto de los falsos positivos)

Features of the solutionData LadderIBM Quality StageSAS DatafluxIn-House SolutionsComments
Match Accuracy (Between 40K to 8M record samples)96%91%84%65-85%Multi-threaded, in-memory, no-SQL processing to optimize for speed and accuracy. Speed is important, because the more match iterations you can run, the more accurate your results will be.
Software SpeedVery FastFastFastSlowA metric for ease of use. Here speed indicates time to first result, not necessary full cleansing.
Time to First Result15 Minutes2 Months+2 Months+3 Months+
Purchasing/Licensing Costing80 to 95% Below Competition$370K+$220K+$250K+Includes base license costs.

Preguntas frecuentes

¿Tienes más preguntas? Mira esto

Hay varios factores que pueden aumentar el número de falsos negativos en los resultados de las coincidencias difusas, como la selección de campos de datos inadecuados, criterios de coincidencia demasiado estrechos y niveles de umbral inadecuados para las coincidencias difusas.
Antes de realizar el cotejo, ejecute comprobaciones de perfiles de datos para conocer el estado de sus datos. Si es necesario, realice actividades de limpieza y normalización de datos para corregir cualquier incoherencia o información no válida presente. Además, el uso de una herramienta de concordancia difusa de autoservicio puede mejorar visiblemente la velocidad y la precisión de la concordancia.

¿Listo? vamos

¡Pruébelo ahora u obtenga una demostración con un experto!

"*" señala los campos obligatorios

Elección*
Este campo es un campo de validación y debe quedar sin cambios.