Blog

Limpieza de datos y calidad de la vinculación de los registros

La vinculación de registros es un método utilizado para vincular los registros de datos a las mismas entidades, como los clientes. La vinculación de registros puede utilizarse para mejorar la calidad e integridad de los datos, para permitir la reutilización de las fuentes de datos existentes. Al tratar con datos procedentes de diversas fuentes, ya sea que los datos provengan de revisiones, datos internos, proveedores de datos externos o raspados de la web, a menudo queremos vincular a las personas o empresas entre los conjuntos de datos. Por desgracia, casi nunca empezamos con datos perfectamente limpios. Cuando se utilizan datos estructurados, los individuos cometen errores de despiste, como confundir las letras de los nombres, los valores individuales se registran de forma errónea y los errores de medición afectan a los resultados. Pueden ocurrir numerosas cosas antes de llegar a descifrar los datos. Ocasionalmente, lo que es aún más molesto, distintas fuentes utilizan nombres diferentes para una entidad similar. Estas pequeñas diferencias hacen que sea terrible fusionar simplemente los datos en los identificadores distintivos. El proceso para vincular los datos individuales o de la empresa entre las fuentes se denomina vinculación de registros. La vinculación de registros (RL) es el proceso de encontrar el mismo registro en todos los conjuntos de datos. Los registros pueden ser personas, libros, etc. Se ha convertido en una disciplina importante en la informática y en el Big Data.

Independientemente del método de vinculación que se utilice, el procedimiento de vinculación suele estar encabezado por una etapa de limpieza de datos. La limpieza de datos (ocasionalmente llamada estandarización de datos o depuración de datos) incluye la modificación, eliminación o alteración de algún modo de los campos en función de sus valores. Se espera que estos nuevos valores mejoren la calidad de los datos y, por tanto, sean más valiosos en el proceso de vinculación. Hay dos tipos de vinculación de datos que incluyen:
Determinista
La vinculación determinista de registros produce asociaciones establecidas en el número de identificadores separados que son iguales entre los grupos de datos existentes. Se supone que dos registros coinciden mediante un proceso de asociación de registros determinista si todos o algunos identificadores son iguales.
Probabilístico
Este método, que a veces se denomina coincidencia difusa incluyen un método diferente para el problema de vinculación de registros al considerar una variedad más amplia de identificadores potenciales, calculando pesos para cada identificador en función de su capacidad proyectada para clasificar correctamente una coincidencia o una no coincidencia, y utilizando estos pesos para calcular la probabilidad de que dos supuestos registros se refieran a la entidad similar. Los pares de registros con probabilidades por encima de una arista determinada se reflejan como coincidencias, mientras que los pares con probabilidades por debajo de otra arista se reflejan como no coincidencias; los pares que se encuentran entre estas dos aristas se reflejan como «posibles coincidencias» y pueden tratarse en consecuencia.
Desafío en la vinculación de registros
Uno de los principales retos de la vinculación de registros es la falta de identificadores de objetos comunes en diversos sistemas de origen que deben coordinarse. Como resultado de esto, el emparejamiento debe dirigirse utilizando cualidades que contengan información parcialmente identificativa, como nombres, direcciones o fechas de nacimiento. Aunque esta información de clasificación suele ser de baja calidad y adolece, sobre todo, de diferencias y fallos tipográficos que se producen con regularidad, dicha información puede cambiar con el tiempo, los errores humanos o sólo está disponible en parte en las fuentes que hay que coordinar. Durante la última década, se han producido avances sustanciales en diferentes aspectos del proceso de vinculación de registros, en particular sobre cómo aumentar la precisión del cotejo de datos, y cómo calibrar el cotejo de datos a sistemas muy grandes que contienen millones de registros.

Calidad y limpieza de datos

El proceso de limpieza de datos incluye la eliminación de datos descartados, obsoletos o erróneos. La limpieza de los datos es un elemento fundamental para obtener información, informes y análisis correctos. En toda la organización, las personas toman decisiones empresariales basadas en los datos que se les proporcionan. La limpieza de datos ofrece datos de alta calidad que ayudan a superar los retos del fraude y permiten a las organizaciones cumplir con la normativa. Los datos de alta calidad sobre las entidades comerciales clave ofrecen el canal de crecimiento para una empresa de éxito.
Mediante el uso de técnicas de limpieza de datos, las organizaciones pueden cotejar y reconocer rápidamente los duplicados en sus datos. Los registros de clientes limpios permiten realizar ventas y publicidad efectivas y ayudan a la organización a crecer. Imagínese que tiene que ponerse en contacto con el mismo cliente varias veces debido a varias entradas en el sistema: es costoso y requiere mucho tiempo para el personal de ventas y asistencia, es difícil para el analista de datos, es engorroso para el desarrollador de BI y es frustrante para el cliente. La mala calidad de los datos también afecta al valor de la marca y perjudica la experiencia del cliente.
Selección de atributos clave en la vinculación de registros
Esto incluye la elección de las mejores características en las que podemos diferenciar entre dos individuos que son similares. En el caso de los registros individuales, el nombre, el apellido, la dirección y el correo electrónico son las características principales. El objetivo es hacer, para un par de registros, un «vector de comparación» de las puntuaciones de semejanza de cada atributo componente. Las puntuaciones de semejanza pueden ser simplemente booleanas (coincidencia o no coincidencia) o pueden ser valores reales con funciones de distancia.

Prototipos

Se trata de desarrollar los programas para realizar la vinculación de registros y el procesamiento de datos de pequeñas muestras de datos antes de aplicarlos a todo el conjunto de datos. Como normalmente el tamaño de los conjuntos de datos es enorme y requiere mucho tiempo y cálculos. Esto ayuda a ajustar los algoritmos y el proceso de vinculación de registros, ya que el tiempo de respuesta disminuye considerablemente al realizar las pruebas. Es significativo que el conjunto de muestras debe ser la representación del conjunto de datos real.

Comparación por parejas

Tras la construcción de un vector de similitudes por componentes para un par de registros, es importante calcular la probabilidad de que el par registrado sea una coincidencia. Existen numerosos métodos para determinar la probabilidad de una coincidencia. Dos métodos sencillos consisten en utilizar una suma ponderada o una media de las puntuaciones de similitud de los componentes. Otro método sencillo es aplicar la concordancia basada en reglas, pero la formación manual es difícil. Las puntuaciones de similitud se generan basándose en varios algoritmos que normalmente coinciden con las cadenas, entre los que se incluyen los algoritmos de distancia de edición y de coincidencia de cadenas difusas.

Medición del rendimiento

La calidad de la vinculación de los registros puede medirse mediante la siguiente dimensión:

  • El número de pares de registros vinculados correctamente (verdaderos positivos)
  • El número de pares de registros vinculados incorrectamente (falsos positivos, error de tipo I)
  • El número de pares de registros desvinculados correctamente (verdaderos negativos)

El número de pares de registros desvinculados incorrectamente (falsos negativos, error de tipo II).

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.