Blog

Su guía completa de programas y enfoques de cotejo de listas

La mayoría de las empresas entienden ahora que hay que implantar nuevas tecnologías y aplicaciones para mejorar las operaciones comerciales. Sin embargo, la implementación de la migración de datos de un sistema heredado a un nuevo sistema supone un reto importante para la calidad de los datos. A menos que la organización haya utilizado activamente soluciones como un software de cotejo de listas o una solución de limpieza de datos, hay muchas posibilidades de que los datos sean defectuosos, corruptos y erróneos.

Por lo tanto, es esencial que una organización invierta en soluciones de limpieza de datos antes de aplicar cualquier plan de migración. El propósito fundamental es obtener datos utilizables a partir de años de datos obsoletos; para hacerlo posible, tiene dos opciones esenciales: invertir en especialistas de datos o en soluciones de calidad de datos.

La pregunta es: ¿debe contratar a un equipo o debe utilizar una solución de software?

En esta guía, te ayudaremos a ver las dos caras de la moneda para que puedas tomar una decisión más acertada. Trataremos temas importantes como:

  • El coste de la mala calidad de los datos
  • Problemas comunes con la calidad de los datos y las listas
  • Enfoques de los problemas de calidad de los datos
  • Características principales de un software de comparación de listas
  • Estudio de caso de Amec Foster Wheeler

Empecemos.

El coste de la mala calidad de los datos

La mala calidad de los datos se refiere a los datos que tienen duplicados, nombres no coincidentes, abreviaturas, datos no estandarizados (NY vs NYC vs New York vs New York City), códigos postales incompletos, direcciones de correo electrónico, etc.

El coste de la mala calidad de los datos es asombroso.
Se calcula que, sólo en Estados Unidos, las pérdidas anuales causadas por la mala calidad de los datos ascienden a 3,1 billones de dólares.
pérdidas anuales, sólo en Estados Unidos, causadas por la mala calidad de los datos.

Tomemos el ejemplo de la empresa A, una compañía proveedora de equipos de construcción a gran escala con múltiples silos de datos. Su objetivo para 2020 es trasladar su sistema heredado a un nuevo sistema en la nube y agilizar los procesos empresariales.

Eran conscientes de los retos que planteaba la calidad de sus datos: a lo largo de los años, los datos eran registrados por múltiples departamentos a través de múltiples herramientas. Al no contar con un sistema de gestión de datos estandarizado o centralizado, la empresa se enfrentaba a un importante reto de limpieza de datos.

El primer paso de cualquier proceso de limpieza de datos consiste en realizar un análisis de las listas de datos e identificar los problemas principales. La atención se centra en las listas porque las soluciones de cotejo de datos funcionan cotejando listas de registros entre sí. El objetivo principal es eliminar los datos duplicados, nulos o incompletos para garantizar que la empresa disponga de datos precisos al pasar al nuevo sistema.

Problemas comunes con la calidad de las listas de datos

Las tablas de las bases de datos muestran los registros en forma de listas. Siguiendo con el ejemplo de la empresa A, lo más probable es que haya listas repetidas o duplicadas, o listas con información inexacta e incoherente.

Es bastante obvio que, sin ninguna norma o sistema establecido, los representantes de ventas han estado actualizando sus listas sin centrarse en la calidad de la información. Los nombres pueden estar abreviados, la información de facturación puede tener normas diferentes, las direcciones pueden no haber sido actualizadas son algunos de los problemas más comunes con las listas de datos.

Veamos cada una de estas cuestiones en detalle.

Duplicación de listas: Esto suele ocurrir cuando los datos de un cliente se registran dos veces bajo una dirección de correo electrónico diferente o una variante del nombre. También es muy posible que un mismo cliente tenga dos nombres diferentes (suele ser el caso del cambio de nombre tras el matrimonio) y que introduzca información contradictoria en un formulario o en un dato de facturación. Si el token [name] se utiliza como identificador único en una base de datos, la información se registra dos veces.

Inconsistencia de datos: Se trata de un problema recurrente en la mayoría de las bases de datos y muy difícil de resolver. Aunque el error humano es la causa de la mayor parte de las incoherencias en los datos, la mayoría de las veces es la falta de estandarización de los datos lo que provoca las incoherencias. Los problemas con las variaciones de los nombres, como Cath frente a Catherine o Carl frente a Karl, y los problemas con las variaciones de los nombres de las ciudades, como NYC frente a NY, no son errores humanos, sino que son variaciones que las bases de datos modernas tienen que tratar aplicando la estandarización.

Datos dispares: En las bases de datos, los datos dispares se refieren a datos no estructurados o a datos que son claramente diferentes en cuanto a su tipo, calidad y carácter. Un buen ejemplo de ello podrían ser los datos de las aerolíneas, en los que un cliente está representado por múltiples puntos de datos, como el número de pasaporte, el identificador de la reserva, el identificador del cliente y su nombre, todos ellos almacenados en múltiples bases de datos. La base de datos de reservas puede contener diferentes datos. El sistema de tickets de atención al cliente puede contener diferentes datos. El sistema de atención al cliente puede contener datos diferentes. Si estas bases de datos no comparten información de forma colectiva, existe un problema importante con la calidad de los datos. Toda esta disparidad de datos dificulta la generación de una única lista consolidada que puede resultar necesaria si la compañía aérea quiere estudiar el comportamiento de sus consumidores.

Cuanto más grande y compleja sea su base de datos, mayores serán las posibilidades de que esté corrupta o sea errónea.

Enfoques de los problemas de calidad de los datos

Hay dos enfoques para resolver los problemas de calidad de los datos: contratar un equipo o invertir en una solución de software. La mayoría de las empresas prefieren desarrollar una solución interna de limpieza de datos contratando a especialistas o encargando a su equipo de TI que haga lo necesario; sólo para acabar decepcionadas por los retrasos y el coste asociado de la inversión en personas, sistemas y recursos.

Por el contrario, invertir en un programa informático da más flexibilidad, hace el trabajo más rápido y cuesta bastante menos. ¿La única pega? Tiene que buscar, explorar y descubrir una solución entre la multitud de opciones que mejor se adapte a los requisitos de su empresa.

1. El enfoque de «contratar un equipo para hacerlo»:

Es un hecho que toda organización, grande o pequeña, tiene un equipo de TI dedicado. La optimización de la calidad de los datos no es una ciencia espacial, pero es el tipo de trabajo en el que los equipos de TI de las organizaciones apenas tienen tiempo o atención para trabajar.

¿El resultado? Cuando se llama a los analistas o especialistas en datos para que les den sentido, se les presentan listas anticuadas, incompletas o incoherentes.

Luego hay que contratar a otros miembros del equipo para crear algoritmos que den sentido a los datos. Incluso así no conseguirás resultados exactos y precisos.

En medio de todo esto, usted está gastando cientos de miles de dólares en la contratación de nuevos miembros, la implementación de nuevos procesos y la pérdida de meses, si no años, para asegurarse de que todo está en orden.

Aquí tienes un desglose de los costes.

Ese es el coste previsto en el caso de que se lleve a cabo el proyecto en un año. La mayoría de las empresas se quedan sin presupuesto en 6 meses. A la larga, no estás ahorrando realmente dinero. Además de eso, estás comprometiendo la precisión.

2. El enfoque del software

La mayoría de las organizaciones han llegado a la conclusión de que contratar a un equipo para ordenar su base de datos es un enfoque caro y contraproducente.

La otra opción es invertir en soluciones de software, de las que hay varios tipos. Hay Las mejores soluciones de su clase soluciones como IBM, SAS, Informatica y Oracle que atienden a los datos de nivel empresarial, sin embargo, se necesitan especialistas capacitados para operar cada una de estas soluciones.

Luego están las soluciones de primer nivel, como Talend, Attaccama, Informatica, que tienen una gama de productos que proporcionan ingeniería de datos, integración en la nube, seguridad de datos y mucho más. Estas soluciones están diseñadas para grandes organizaciones empresariales que desean una solución de datos completa.

Por último, existe un software de concordancia de listas de nivel medio, que utiliza métodos de lógica difusa (concordancia de cadenas de patrones similares) para identificar y eliminar los duplicados. Sin embargo, a largo plazo, se necesita algo más que una coincidencia difusa para limpiar los datos.

Características principales de un software de comparación de listas

Con tantas opciones, ¿cómo determinar qué solución de software le conviene más?

Para responder a esta pregunta, tendrá que saber qué características clave necesita un software de limpieza de datos o de cotejo de listas y cómo esas características pueden ayudarle a lograr varios aspectos de sus objetivos de cotejo y limpieza de datos.

Perfiles de datos

Laelaboración de perfiles de datos es el proceso de examinar la exactitud, integridad y validez de sus datos. Un buen software de cotejo de listas le permite perfilar sus datos antes de migrar de un sistema heredado a un nuevo sistema. Durante la fase de elaboración de perfiles, sus datos se clasificarán en busca de valores en blanco o nulos, patrones anómalos y duplicación de datos. Para los sistemas heredados con años de datos y miles de errores, la elaboración de perfiles de datos es una necesidad. Ayuda a identificar los problemas de calidad de los datos en el nivel de origen, ahorrando tiempo en etapas posteriores.

Etiquetado semántico

Cuando los datos provienen de diferentes fuentes, a menudo es difícil dar sentido a todos los campos que contienen información identificable. Por ejemplo, las fechas de nacimiento suelen registrarse en el campo de la fecha. No está claro si se trata de una fecha de nacimiento o de un evento. Se aplica una etiqueta semántica de «fecha de nacimiento» al campo Fecha, que posteriormente ayuda en el proceso de resolución de la identidad.

Los datos de identificación personal pueden ser el nombre, los apellidos, las direcciones de correo electrónico, las direcciones de facturación, etc. El objetivo del etiquetado semántico es dar sentido a los datos y acelerar el proceso de limpieza de datos.

Limpieza de datos

Una vez etiquetados los campos, el siguiente proceso es la parte de normalización y limpieza de datos. Esto significa que si tienes campos que no están normalizados, se normalizan. Así, por ejemplo, la dirección 47 W. 13th St. NY, US se normaliza como «47 W 13th STREET, New York, USA».

Durante el proceso de limpieza de datos, los datos de spam o los datos incompletos se etiquetan como No disponible, Nulo, Rechazado, para garantizar que los datos falsos se clasifican y limpian desde el principio.

A juego con

La concordancia es la función más importante del proceso de resolución de identidades. Casi todas las soluciones de datos de gama alta ofrecen la conciliación de datos como su servicio principal. Este es el proceso en el que el software compara los registros y obtiene las conexiones. Hay tres procesos principales que se utilizan para llevar a cabo esto en los datos a nivel de empresa.

    • Bloqueo: Al realizar una actividad de cotejo, es necesario cotejar y comparar millones de registros entre sí. Así, si tiene un conjunto de datos que contiene, por ejemplo, un millón de registros, tendrá que comparar 1 millón x 1 millón de registros. Se trata de un proceso extremadamente ineficaz y lento, por no decir prohibitivo desde el punto de vista informático. Para comparar estos registros, se utiliza una simple regla de bloqueo para dividir el conjunto de registros en «bloques» más pequeños que se comparan entre sí. Los bloques son pares de registros que tienen más probabilidades de coincidir: por ejemplo, las fechas de nacimiento pueden separarse en diferentes bloques como BirthYear, BirthMonth y BirthDay. Las tres columnas se pueden utilizar a la vez para procesar su primera coincidencia de bloques.
    • Comparación por pares y puntuación: Este método compara conjuntos de datos dentro de un bloque. Por ejemplo, puede comparar un bloque de Fecha de nacimiento con un bloque de Nombre para ver si dos de los bloques representan una coincidencia.
  • Agrupación: Un aspecto necesario de la comparación de datos, la agrupación produce resultados de coincidencia más rápidos manipulando uno o más valores de identificadores en el conjunto de datos y agrupándolos con los valores de identificadores. Por ejemplo, los nombres que terminan en «Smith» pueden agruparse en un grupo que se revisa posteriormente para ver si hay coincidencias conflictivas. Los registros de diferentes agrupaciones no se compararán entre sí y las agrupaciones con un solo registro no se utilizarán en la comparación.

Normalización de datos

Una vez que hayas ordenado tus datos, el siguiente paso sería limpiar tu lista. Para ello, se eliminan las entradas duplicadas, se filtran los datos nulos o incompletos y se realiza una depuración de la lista para garantizar que los datos estén limpios.

Al final del proceso, los datos se validan y las versiones finales se comunican a los distintos departamentos de la organización. Es aquí donde tendrá que implementar la estandarización de los datos, lo que significa que todos sus datos deben ser almacenados en un formato común. El personal implicado o las personas que tratan los datos deben recibir formación sobre la normalización.

El objetivo de la recogida de datos no es la cantidad , sino la calidad. No quiere 100 direcciones de correo electrónico, quiere 100 direcciones de correo electrónico precisas, completas y utilizables. En el mundo real, habrá 28 direcciones de cada 100 que no sean válidas o sean inútiles.

Por lo tanto, lalimpieza y la estandarización delos datos garantizan que se pueda trabajar con ellos y que se pueda confiar en ellos.

Características adicionales del mejor software de comparación de listas

Además, aquí hay algunas características importantes que debe tener un gran software de cotejo de listas:

Rápido: El objetivo de utilizar una solución de software de depuración de listas es obtener resultados lo más rápido posible. Las organizaciones no tienen el privilegio de esperar meses o años para obtener información específica: si necesitan el registro de ventas de una nueva sucursal, lo necesitan rápido. El software puede conseguir esto para usted en cuestión de minutos en comparación con tener un equipo que pasará horas si no días en el uso de múltiples consultas para obtener los datos que necesita al instante.

Precisa: La precisión es un punto crítico de la gestión de la calidad de los datos. El software de cotejo de listas de primer nivel elimina los duplicados con precisión, garantizando la exactitud de los datos. En 15 estudios independientes, la precisión de coincidencia de Data Ladder se midió en un 96% en tres conjuntos de datos de entre 40.000 y 4 millones, superior a la de IBM (88%) y a la de SaS (84%).

Herramientas completas: Cuando el objetivo es la gestión de la calidad de los datos, se necesita un conjunto completo de herramientas y no sólo una solución independiente. La herramienta adecuada le permite perfilar, cotejar, limpiar y normalizar los datos.

Fácil integración: Como ejemplo rápido, Data Ladder se integra con más de 150 plataformas de datos. Ya sea Salesforce o Zoho, sólo tiene que conectar su base de datos con Data Ladder.

Escalable: Medir unos pocos millones de registros es fácil. Medir unos cientos de millones de registros es una tecnología totalmente diferente que sólo puede ser manejada por un software de depuración de listas diseñado para ser escalable. Cuando invierta en una solución de calidad de datos, asegúrese de que puede ayudarle cuando sus datos se amplíen.

Estudio de caso de Amec Foster Wheeler

Amec Foster Wheeler plc era una multinacional británica de consultoría, ingeniería y gestión de proyectos con sede en Londres (Reino Unido) hasta su adquisición y fusión con Wood Group en octubre de 2017.

Con las crecientes demandas del sector de la ingeniería medioambiental, la empresa tenía una gran necesidad de racionalizar sus procesos empresariales para la próxima afluencia de proyectos y tareas de recursos humanos.

La empresa estaba en proceso de migración a un nuevo sistema de finanzas y recursos humanos y sabía que la calidad de sus datos debía mejorar antes de dar el siguiente paso importante.

Gracias a DataMatch™, el software de datos de Data Ladder, la empresa pudo gestionar sus esfuerzos de deduplicación. Con la gran tarea de migrar toda su información financiera y de recursos humanos existente a un nuevo sistema, también planean utilizar DataMatch™ para limpiar y repoblar sus sistemas.

¿El beneficio? Con las mejores capacidades de limpieza y deduplicación de datos de su clase, combinadas con la formación personalizada de los especialistas de Data Ladder, el cliente no sólo pudo mantener la precisión de sus datos, sino que también pudo mantener un alto nivel de calidad de datos necesario para migrar a sus nuevos sistemas financieros y de recursos humanos.

Puede descargarse el caso práctico para leer los retos, la situación empresarial y cómo nuestras soluciones ayudaron a la empresa a alcanzar sus objetivos empresariales y de calidad de datos deseados.

Conclusión:

Los problemas de calidad de los datos y de concordancia de las listas han sido una lucha para las empresas desde hace siglos. Sin embargo, en el mundo actual hay literalmente docenas de soluciones disponibles para ayudarle a limpiar los datos. Dicho esto, cada necesidad empresarial es diferente, lo que requiere una combinación de diferentes herramientas. Es posible que quiera utilizar DataMatch™ de Data Ladder para limpiar sus datos, pero puede querer los servicios de migración a la nube de Talend.

Cuando se trata de la calidad de los datos, no existe una solución universal, pero esto no debería frenarle.

No deje que los malos datos afecten al crecimiento de su negocio.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.