Blog

Medición de la calidad de los datos: ¿Cuándo hay que preocuparse?

En marzo de 2017, el Rescue 116 se estrelló contra un obstáculo de 282 pies: la isla de Blackrock, frente a la costa del condado de Mayo. Las investigaciones posteriores revelaron que el operador de helicópteros del CHC Ireland no contaba con un sistema «formalizado, normalizado, controlado o periódico». Debido a ello, en la base de datos utilizada por el operador para revisar las rutas de vuelo faltaban detalles sobre la isla de Blackrock. Se informó de que la tripulación no fue advertida de este obstáculo en su ruta de vuelo hasta que estuvieron a 13 segundos de él. Lo peor es que se registró una queja sobre esta inexactitud de la base de datos de los guardacostas irlandeses 4 años antes del incidente, pero no se tomó ninguna medida correctiva.

En un mundo en el que todas las acciones se basan en los datos (independientemente de que este hecho se reconozca oficialmente o no), estos incidentes demuestran que el coste de la mala calidad de los datos está muy subestimado. Pero el mayor reto que se encuentra durante la evaluación de la calidad de los datos es la falta de medidas rápidas y oportunas que puedan alertar a las partes interesadas cuando la calidad de sus datos esté por debajo de un umbral aceptable.

Diez dimensiones de la evaluación de la calidad de los datos

En pocas palabras, la calidad de los datos está garantizada cuando los datos pueden utilizarse para el fin previsto sin que se produzcan errores. La calidad de los datos suele medirse con estas diez dimensiones críticas:

Pero a menudo se cuestiona con qué rapidez se pueden medir estas dimensiones -y a qué nivel- para poder alertar a tiempo a los equipos sobre el deterioro de la calidad de los datos y su impacto en los costes de explotación de los mismos.

Medición del viernes por la tarde (FAM) – Evaluación rápida de la calidad de los datos

Tom Redman propuso el método de medición de los viernes por la tarde (FAM), que aborda de forma rápida y contundente la cuestión: ¿Debo preocuparme por la calidad de los datos?

Este método proporciona un método de cálculo rápido y eficaz que puede completarse en aproximadamente una hora un viernes por la tarde, cuando el ritmo de trabajo ha disminuido, de ahí su nombre. Este método permite evaluar la calidad de los datos semanalmente, de modo que se pueden levantar las banderas rojas antes de que la situación se vaya de las manos. Según la FAM, la calidad de los datos puede medirse de la siguiente manera:

Paso 1: Reunir datos recientes

Comience por recopilar datos de muestra de las actividades más recientes relacionadas con los datos que se produjeron en su departamento. Por ejemplo, para el departamento de ventas, pueden ser las últimas 100 entradas de registros en su CRM. Aquí puede utilizar los datos creados o utilizados recientemente. Una vez que tenga esos 100 registros, seleccione entre 10 y 15 elementos de datos o atributos, es decir, la información más importante de esos registros.

Paso 2: Marcar los registros defectuosos y sin defectos

Invite a un par de personas de su equipo que tengan conocimientos sobre los datos en cuestión y pídales que se reúnan con usted durante dos horas. Revise los registros seleccionados y sus atributos, y marque todos los valores en los que encuentre un error de calidad de datos (es decir, el valor es nulo, inválido, está mal escrito, etc.).

Esta actividad no suele llevar mucho tiempo, ya que los errores de calidad de los datos serán en su mayoría evidentes. Pero podría haber un pequeño número de registros que requieran discusiones más profundas entre los miembros del equipo para analizar los problemas de calidad de los datos.

Cuando haya marcado estas discrepancias en todos los registros, ya puede añadir una nueva columna en el conjunto de datos de muestra denominada «¿Registro perfecto?», y rellenar los valores de la columna en función de si se ha encontrado un error para un registro o no. Al final, puede sumar y calcular el número de registros defectuosos y sin defectos marcados en el conjunto de datos de la muestra.

Paso 3: Medir la calidad de los datos en porcentaje

Ahora, es el momento de poner las cosas en perspectiva y obtener resultados concluyentes. Digamos que, de los últimos 100 registros que su equipo creó o utilizó, sólo 62 resultaron ser completamente perfectos, mientras que el resto de 38 tenían uno o más errores de calidad de datos. Una tasa de error del 38% en un conjunto de datos recogidos/utilizados recientemente es una señal de alarma y confirma que su departamento tiene un problema de calidad de datos.

Paso 4: Ponderar la regla de los diez (RoT) para calcular el coste de la mala calidad de los datos

El método no termina aquí. Además, calcula el coste estimado de la mala calidad de los datos para que su equipo -y los ejecutivos de nivel C- puedan comprender el impacto de los datos deficientes. Este cálculo de costes tiene en cuenta la regla de los diez: Cuesta diez veces más completar una unidad de trabajo cuando los datos están defectuosos, en comparación con cuando son perfectos.

Así, por ejemplo, si el coste de una sola unidad de trabajo es de 1 dólar cuando los datos son perfectos, el coste total puede calcularse como:

Coste total = (62$1) + (38$1*10) = 62$ + 380$ = 442

Esto muestra cómo los registros de datos defectuosos acaban costando unas cuatro veces más, en comparación con si los datos fueran perfectos. Ahora que sabe que tiene un problema de calidad de datos y el coste de su impacto, puede tomar medidas correctivas para solucionar estos errores.

Implementación de FAM con DataMatch Enterprise – El mejor software de calidad de datos de su clase

El método FAM ha demostrado ser un método muy rentable y eficaz en términos de tiempo, ya que da resultados en una reunión de dos horas entre dos o tres miembros del equipo. Sin embargo, este tiempo puede reducirse a sólo 3-5 minutos con la participación de un solo miembro del equipo, utilizando una herramienta de software de calidad de datos de autoservicio.

DataMatch Enterprise (DME) es una completa herramienta de gestión de la calidad de los datos que emplea una serie de algoritmos estadísticos para perfilar, limpiar, cotejar y desduplicar sus datos. Viene con amplias capacidades de perfilado que crean un informe instantáneo de 360 de la calidad de sus datos mediante la identificación de valores en blanco, formatos y tipos de datos incorrectos, patrones no válidos y otras estadísticas descriptivas.

Etiquetado automático de registros perfectos e imperfectos en cuestión de segundos

En lugar de identificar y marcar manualmente las discrepancias presentes en su conjunto de datos; con el ISD, su equipo puede generar por sí solo un informe que etiquete y numere los registros perfectos e imperfectos en sólo unos segundos, incluso con un tamaño de muestra tan grande como 2 millones de registros.

El rendimiento de DataMatch Enterprise en un conjunto de datos que contiene 2M de registros se registró de la siguiente manera:

Generación y filtrado de perfiles de calidad de datos detallados

A continuación se muestra un perfil de muestra generado con el ISD en menos de 10 segundos para unos 2000 registros:

Este conciso perfil de datos destaca los detalles del contenido y la estructura de todos los atributos de datos elegidos. Además, también se puede navegar hacia aspectos específicos, como la lista de aquellos registros del 12% a los que les falta el segundo nombre del contacto.

Lo que sigue – De la evaluación de la calidad de los datos a la fijación de la calidad de los datos

Las funciones y capacidades del ISD no terminan con la evaluación de la calidad de los datos, sino que está diseñado para utilizar los resultados de la evaluación para solucionar los problemas de calidad de los datos:

Además, el ISD se integra con prácticamente cualquier fuente y extrae registros de datos que se remontan a la fecha especificada, además de enviar resultados limpios y estandarizados a la fuente. Todas estas funciones se reúnen en un software de calidad de datos único que está diseñado para ser utilizado en cualquier departamento de cualquier industria.

Para conocer más detalles sobre cómo nuestra solución puede ayudar a implementar el método FAM en su conjunto de datos, o resolver sus problemas de calidad de datos, inscríbase en una prueba gratuita hoy mismo o establezca una demostración con uno de nuestros experimentados profesionales.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.