Blog

Software de comparación de nombres frente a algoritmos: ¿Cuál es el mejor para su negocio?

Catherine se escribe como Cathy, Kath o Katharine; John se introduce en su sistema como Jon, Jonathan o Jonny; o una Margaret que se hace llamar Peggy cuando compra en línea — las variaciones de nombre causan problemas significativos en el mantenimiento de un perfil preciso de cliente o proveedor para las organizaciones. En este artículo, veremos cómo el software y las técnicas de concordancia de nombres ayudan a las empresas.

Aunque aparentemente es una cuestión menor, las variaciones de nombre dan lugar a la creación de registros duplicados en fuentes de datos dispares. Sus representantes pasan demasiado tiempo tratando de consolidar la información de los clientes y verificar si dos clientes son en realidad la misma persona, y sus análisis podrían mostrarle una visión errónea de sus clientes, lo que afectaría a las decisiones empresariales.

Aquí hay un pequeño ejemplo de lo que va mal con una falta de coincidencia de nombres.

Digamos que quiere enviar un correo electrónico promocional a sus clientes. Conecte su base de datos a su plataforma de correo electrónico automatizado y envíe un correo electrónico. William Rogers es uno de sus clientes, pero cuando recibe el correo electrónico, se dirige a él como «Willy Rog». Acaba de perder la confianza, y por tanto el negocio continuo, de un cliente.

¿Cómo se puede evitar que ocurra un accidente de este tipo? ¿Qué medidas prácticas puede tomar para asegurarse de que su base de datos tiene la información correcta?

Vamos a responder a todas estas preguntas cubriendo:

  • ¿Qué es la concordancia de nombres?
  • ¿Por qué se producen problemas de coincidencia de nombres?
  • 4 Enfoques generales para resolver los problemas de coincidencia de nombres
  • Desafíos de los enfoques existentes
  • Cómo puede ayudar el software de concordancia de nombres
  • Estudio de caso de Zurich Insurance

Vamos a profundizar.

¿Qué es la concordancia de nombres?

En términos sencillos, la concordancia de nombres significa simplemente dar sentido a varias variaciones de un nombre y hacerlas coincidir con un nombre principal. Así, tomando el ejemplo anterior: William puede escribirse como Will, Willy, Wils, etc. El objetivo del cotejo de nombres es identificar estas variaciones y asociarlas con el nombre correcto, es decir, Guillermo.

Suena sencillo, ¿verdad?

No es así.

En las bases de datos, los nombres también actúan como identificadores únicos, lo que significa que su base de datos puede basarse en un nombre para buscar un registro. Y lo que es más importante, cuando se utilizan herramientas de automatización del marketing, se confía en el token [name] para personalizar el correo electrónico, lo que no deja lugar a errores. Las consecuencias negativas de las faltas de ortografía pueden costar a las empresas cientos de miles de dólares.

¿Y qué puedes hacer? Los expertos en datos aplican algoritmos o métodos para eliminar los duplicados o las cadenas de nombres inexactas, manteniendo sólo una fuente verdadera. Así, en el caso de William, se eliminan todas las demás variaciones, lo que le da un nombre principal correcto, mientras que se almacenan las demás variaciones en un campo separado para su consulta, si es necesario.

¿Por qué se producen problemas de coincidencia de nombres?

Las variaciones de nombre se producen por varias razones, la primera y más importante es el comportamiento o la intención del usuario. Algunas personas pueden optar por dar su apodo (un problema común en los negocios en línea que requieren que los usuarios rellenen formularios). Algunos pueden optar por dar sólo sus iniciales, o algunos pueden simplemente escribir un nombre al azar.

Independientemente del tamaño, el tipo o el sector de su empresa, el coste de los datos falsos o inexactos es siempre elevado. Pero si su organización pertenece a las fuerzas del orden, a la seguridad nacional, al cumplimiento de la normativa financiera o a sectores similares en los que los datos son sensibles, no puede arriesgarse a que el problema varíe de nombre. Para las organizaciones de estos sectores, lo que está en juego son las variaciones de coincidencia de nombres.

TransUnionLa agencia de informes crediticios de los consumidores, una de las más populares, perdió una demanda colectiva masiva por marcar incorrectamente a los clientes como delincuentes. Del mismo modo, PayPal, una popular empresa de transacciones financieras en línea
fue multada por no impedir las transacciones
a Irán, Cuba y Sudán porque su filtro no funcionaba correctamente.

La creciente variabilidad y complejidad de los tipos de datos, los formatos de datos y las fuentes de datos (móviles, sociales, registros de dispositivos, etc.) ha complicado aún más los retos de coincidencia de nombres.

Algunos de los problemas más comunes con la coincidencia de nombres son:

Errores tipográficos: La falta de la «a» en Angela podría cambiar el nombre a Angel. ¿El problema de las erratas? A veces, ni siquiera somos conscientes de que hemos cometido una errata.

La fonética: ¿Es Carl o Karl? ¿Gris o gris? Estos nombres suenan igual pero se escriben de forma diferente. Si alguien está introduciendo el nombre a través de una llamada (un agente de atención al cliente, por ejemplo), el hecho de no confirmar la ortografía produce un error que pasa desapercibido.

Apodos: Este es un problema común. A veces los apodos sustituyen por completo al nombre original. Así, alguien puede ser habitual de escribir Mike en lugar de Michael o Liz en lugar de Elizabeth.

Iniciales: A veces, cuando los nombres son muy largos, la gente tiende a anotar sólo las iniciales. Mary Jane Thomas podría escribirse como M.J Thomas. En este caso, también existe la posibilidad de que M.J. Thomas se confunda con un hombre.

Nombres extranjeros: ¡Esto es súper difícil! Cuando se trata de nombres extranjeros, hay muchas posibilidades de que haya errores ortográficos. Los nombres asiáticos, especialmente los vietnamitas, coreanos y chinos, son difíciles de abordar. Por ejemplo, «Nguyen thi…» es un nombre de pila vietnamita común para las mujeres. Algunos lo escriben como Nugyen, otros como Nguyen – el primero es un error ortográfico. Lo mismo ocurre con los nombres asiáticos que se han americanizado, por ejemplo, Farah se escribe y se pronuncia como Farrah.

Dado que hay tantas fuentes, procesos y personas implicadas en el registro de nombres, resulta difícil garantizar una precisión del 100%. Sin embargo, gracias a la tecnología moderna, es posible reducir significativamente, si no eliminar por completo, los datos inexactos.

¿El truco?

Tendrá que utilizar diferentes métodos de concordancia de nombres para resolver diferentes retos de concordancia de nombres. En cualquier caso, hay que señalar que no existe una única solución para resolver estos problemas. Hay diferentes enfoques desarrollados para abordar diferentes retos, pero no hay una solución única para todos.

La mayoría de los marcos descritos están diseñados para retos específicos y requieren una importante personalización antes de poder desarrollarlos e implantarlos en un entorno empresarial.

4 Métodos generales para resolver los problemas de coincidencia de nombres

El reto de la concordancia de cadenas ha molestado a las empresas y organizaciones durante décadas. Empresas como Google y Amazon utilizan varios métodos para superar este reto, mientras que las empresas menos capitalizadas siguen luchando con el coste de mantener una gran base de datos.

Estos son algunos de los enfoques de concordancia de nombres más comunes utilizados en la industria.

El método de la llave común

La fonética es un problema común de los nombres que puede resolverse mediante el método de la clave común. En este método, los nombres se representan mediante una clave o código basado en su pronunciación en inglés.

El algoritmo fonético Soundex se utiliza para indexar los nombres por sonido. Así, por ejemplo, SMITH y SCHMIDT tienen como clave S530. Ahora bien, esto puede parecer una forma superfácil de resolver los problemas de nombres, pero es muy limitada.

Sólo funciona en basado en el latín idiomas. Esto significa que descifrará los nombres de lenguas extranjeras según la fonética inglesa. Double Metaphone, otro algoritmo fonético, utiliza un código primario y otro secundario para cada nombre, lo que le permite tener en cuenta otros idiomas como el eslavo, el germánico, el español, el francés, el griego, el italiano e incluso el chino.

Por lo tanto, Double Metaphone codificará a Smith con un código primario de SM0 y un código secundario de XMT. Cuando lea a Schmidt, utilizará el código secundario de Smith, que es XMT como primario y un código secundario de SMT. ¿Notas que se comparte el XMT? Esto indica la similitud entre nombres que suenan parecido.

A pesar de ser un método popular, el mayor reto de los algoritmos de clave común es la precisión. La mayoría de las veces se trata de conjeturas (como en el caso de Smith frente a Schmidt), y aunque se están definiendo algoritmos mejores y más avanzados para tratar las diferencias fonéticas, siempre habrá problemas cuando se trate de nombres no ingleses. En el caso de los nombres coreanos, por ejemplo, tanto Soundex como Metaphone convertirán los nombres a caracteres latinos y luego crearán claves para ello. Este proceso añade complejidad a la tarea y aumenta las posibilidades de error en lugar de reducirlas.

Ventajas: Sencillo, rápido y con un alto valor de recuerdo
Contras: No funciona tan bien con nombres no latinos. Puede comprometer la precisión.

Método de búsqueda de listas o diccionarios

El método es sencillo: hacer una lista de todas las posibles variantes de un nombre y hacerlas coincidir con la fuente principal.

Este método funciona mejor para los datos multiculturales, ya que hay diferentes derivaciones de un nombre, cuya causa puede ser las preferencias culturales, la individualidad o simplemente un error humano que no se ha corregido.

Por ejemplo, el nombre de Aiden. También se escribe como Aydin. Otro ejemplo común es Ayesha que también se escribe como Aisha o Aiesha.

Aunque el método de la lista es sencillo y fácil de mantener, requiere muchos recursos y flaquea cuando se enfrenta a otras variaciones como las iniciales, los apodos, los apellidos, etc. Otro inconveniente es que una variación de nombre que no esté en la lista no se encontrará como coincidencia, lo que hace que el método de la lista sea ineficiente para su uso en sectores como la seguridad nacional, la lucha contra el blanqueo de dinero, etc.

Pros: Fácil de usar
Contras: Requiere muchos recursos; tiene problemas de recuperación ya que las nuevas variantes pueden no ser capturadas; es lento ya que escanea a través de una gran base de datos para devolver una coincidencia.

Editar el método de la distancia

El método de la distancia de edición descompone las grafías en caracteres y les da una ponderación. «Carl» y «Karl» tendrán una distancia de edición de 1 ya que la C se convierte en una K. En este caso, la C se «transpone» por la K. El término «editar» en este método se refiere a las acciones de inserción, eliminación y transposición que serán necesarias para hacer coincidir las cadenas.

Se sirve de dos factores clave:

1). El número de grafías similares en la cadena

2). El número de operaciones de edición que se necesitan para convertir una variante en otra.

El inconveniente de este método es el mismo que el de los otros métodos: la precisión está limitada sólo para los nombres en inglés. En el caso de los nombres no ingleses, se lleva a cabo un proceso de traducción tras el cual se realizan las modificaciones. Un nombre vietnamita, «Hang», puede traducirse como «Heng», que es un apellido chino. Ambas tienen la misma ortografía, salvo las vocales, e incluso suenan igual, ya que proceden de la misma cultura oriental.

Por lo tanto, es obvio que no sólo el método de la distancia de edición pierde en matices lingüísticossino que, además, da lugar a errores importantes cuando se trata de traducir al inglés lenguas no latinas.

Pros: Fácil de ejecutar
Contras: No funciona eficazmente para los idiomas no latinos.

Método basado en reglas

Este es un método interesante que se basa en el conocimiento humano. Este método requiere mucho trabajo, pero incorpora el conocimiento del mundo real sobre los nombres de diferentes culturas y etnias. La ventaja de este método es que no hay traducción de una lengua extranjera al inglés y los matices culturales de un idioma se mantienen intactos.

¿Los tres inconvenientes de este método?

  1. Se basa en el alcance del conocimiento humano.
  2. Se requiere un gran trabajo para alimentar las múltiples variaciones de nombres basándose únicamente en el conocimiento humano.
  3. Es lento, ya que tiene que cribar millones de nombres para buscar una buena coincidencia.

Ventajas: Se adapta a los nombres en idiomas extranjeros
Contras: Se basa en el conocimiento humano

Utilización del modelo híbrido

Los modelos híbridos utilizan dos o más métodos para lograr la mayor recuperación y precisión. Para lograr estos objetivos, puede utilizar la alta capacidad de recuperación del método de la clave común con el conocimiento humano de los nombres del método basado en reglas.

Con un modelo híbrido, las reglas se generan a partir de datos reales, lo que significa que no tiene que depender enteramente del conocimiento humano y tampoco de una traducción. Además, este método funciona perfectamente para la búsqueda de nombres en varios idiomas, ya que los usuarios pueden escribir un nombre en inglés y obtener resultados precisos.

Como resultado, un modelo híbrido es rápido de ejecutar, proporciona un recuerdo preciso y también resuelve el problema de no latín a latín.

Sin embargo, es importante mencionar aquí que no es una tarea fácil desarrollar un modelo híbrido que satisfaga sus necesidades de datos. Primero tiene que identificar el problema que tiene, el tipo de enfoque que funcionará con sus datos específicos y el alto nivel de personalización que tendrá que realizar para que el modelo funcione con sus datos. Además, tendrá que dedicar meses a probar, registrar, actualizar y revisar la eficacia de los distintos métodos. Se trata de un esfuerzo costoso y que no le ayudará a superar sus actuales retos en materia de datos.

Desafíos de los enfoques existentes

Si su organización maneja sólo un par de cientos de nombres en una hoja de Excel, puede arreglar manualmente los problemas de nombres o puede utilizar cualquiera de los algoritmos descritos anteriormente. Por supuesto, es un hecho que la implementación de cualquiera de estos enfoques le costará cientos de miles de dólares, meses, si no años, de pruebas e implementación y la contratación de un equipo de desarrollo que no viene sin advertencias.

También hay otros retos que pueden ser difíciles de superar con los enfoques existentes:

1. El problema de manejar una variedad de escrituras: La mayoría de los enfoques se refieren principalmente a las lenguas de base latina. Con guiones multiculturales o multilingües, estos enfoques funcionan muy mal. Sólo pueden manejar un guión a la vez, por lo que realmente no se puede utilizar para clasificar varios guiones simultáneamente.

2. Problemas con la precisión y la recuperación: El método de la clave común puede tener una alta recuperación, pero una pobre precisión. Como sólo hace coincidir cadenas basadas en sonidos o claves, flaquea cuando se trata de datos de alta variabilidad. El método basado en reglas puede ofrecer precisión, pero al tener que escudriñar manualmente los datos, tiene un proceso de recuperación súper lento.

3. Altos recursos computacionales: La clasificación de una base de datos empresarial a gran escala requiere altos recursos computacionales que ofrecen un tiempo de ejecución igualmente alto. Debería ser capaz de recordar un nombre o una coincidencia en cuestión de segundos tras una búsqueda. Esta necesidad de carga instantánea de información requiere sistemas y recursos que son costosos, por no mencionar que también requiere mantenimiento y actualizaciones anuales.

4. Falta de mejoras automatizadas: Con el tiempo, todos estos enfoques necesitan ser actualizados manualmente para obtener mejoras. Esto no sólo es largo y complejo, sino que también aumenta el reto de la precisión y la exactitud.

5. Contratación del tipo de talento adecuado: Cualquiera puede aprender un idioma y montar un programa para usted. Pero se necesita algo más que un desarrollador de Python para realizar este trabajo. Se necesita un equipo que entienda cómo utilizar un determinado modelo para resolver un problema específico, y ese equipo no es barato.

Software de concordancia de nombres: El enfoque sin código

Aunque estos algoritmos puedan «parecer» sencillos, su ejecución no lo es tanto.

Las limitaciones, la necesidad de un equipo y de recursos informáticos y, sobre todo, el reto de aplicar un enfoque que funcione son difíciles, si no imposibles, de superar. Cuesta cientos de miles de dólares, supone una gran carga para los procesos empresariales y sigue sin captar el aumento exponencial de las diferentes fuentes, tipos y formatos de datos.

Aquí es donde se necesita un software de concordancia de nombres: una solución que no requiera código, que no dé problemas y que funcione excepcionalmente bien con las crecientes necesidades de datos.

Las soluciones modernas de software de concordancia de nombres hacen algo más que una simple concordancia de nombres. Limpian los datos, eliminan los problemas de duplicación, eliminan la redundancia mediante la aplicación de la estandarización y ayudan a su organización a contar con datos fiables y precisos.

DataMatch Enterprise es una de esas soluciones integrales que va más allá de la comparación de nombres. Utilizada por más de 4.000 organizaciones en 40 países y reconocida como la solución número uno en cotejo y limpieza de datos, es una solución que resuelve los problemas modernos de datos. El sistema implementa un modelo híbrido para identificar y resolver las variaciones en múltiples puntos de datos.

Además, ofrece una solución de API que integra cualquiera de sus fuentes de datos con la plataforma DataMatch Enterprise, donde podrá perfilar, limpiar, cotejar y deduplicar fácilmente.

Zurich Seguros – Estudio de caso

Zurich Insurance, una de las mayores compañías de seguros de Suiza, pudo utilizar DataMatch Enterprise para examinar la información y asegurarse de que los pagos se procesaban correctamente y sin errores humanos.

Su sistema actual no tiene una función de edición dura en la que los nombres de los beneficiarios puedan rellenarse previamente para que los que gestionan e introducen la información en la base de datos puedan simplemente introducir cualquier tipo de información. Si se ejecutaba cualquier consulta contra el almacén de datos principal, aparecía una larga lista de información duplicada.

¿El resultado? Los nombres de los proveedores no se agregaban adecuadamente, lo que provocaba enormes dolores de cabeza e ineficacia operativa.

Gracias a DataMatch Enterprise, la empresa pudo:

  1. Crear informes precisos y confidenciales para la industria
  2. Cumplir con las necesidades de limpieza de datos y cotejo difuso
  3. Procesar los pagos sin errores humanos

Conclusión – Su organización necesita datos en los que pueda confiar

Los datos en bruto siempre son propensos a errores. Independientemente de los sistemas de front-end que se pongan en marcha, cuando se trata de un ser humano que rellena o da información, siempre habrá problemas de variaciones. Si estas cuestiones no se resuelven, puede convertirse en un error costoso.

Las organizaciones pueden ser demandadas en acciones colectivas, pueden perder clientes, pueden recibir malas críticas en línea o incluso pueden perder a la competencia con el caso de los malos datos.

Por lo tanto, la inversión en software de cotejo de nombres y soluciones de limpieza de datos es una necesidad y no un lujo.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.