Según el informe de O’Reilly sobre El estado de la calidad de los datos 2020, el 56% de las organizaciones se enfrentan a al menos cuatro tipos diferentes de problemas de calidad de datos, mientras que el 71% se enfrenta a al menos tres tipos diferentes. Las organizaciones dedican mucho tiempo y recursos al diseño de marcos de calidad de datos y a la resolución de problemas de calidad de datos. Pero para obtener buenos resultados, es importante que entiendan la naturaleza exacta de estos problemas e identifiquen cómo acaban en el sistema en primer lugar.
En este blog, examinaremos algunos problemas generales de calidad de datos que existen en todos los conjuntos de datos, y también destacaremos las formas más comunes en las que pueden aparecer en su base de datos.
Empecemos.
¿Qué es un problema de calidad de datos?
Un problema de calidad de datos se refiere a la presencia de un defecto intolerable en un conjunto de datos, de tal manera que reduce la fiabilidad y confiabilidad de los mismos.
Los datos almacenados en fuentes dispares están destinados a contener problemas de calidad de datos. Estos problemas pueden introducirse en el sistema debido a una serie de razones, como errores humanos, datos incorrectos, información obsoleta o falta de conocimientos sobre datos en la organización. Dado que los datos alimentan las funciones críticas de la empresa, estos problemas pueden causar algunos riesgos y daños graves a la empresa.
La necesidad de aprovechar los datos de calidad en todos los procesos empresariales es bastante evidente. Los líderes están invirtiendo en la contratación de equipos de calidad de datos porque quieren que las personas sean responsables de alcanzar y mantener la calidad de los datos. Además, se diseñan complejos marcos de calidad de datos y se adopta tecnología avanzada para garantizar una gestión rápida y precisa de la calidad de los datos. Todos estos esfuerzos se realizan con la esperanza de hacer realidad el sueño de los datos limpios.
Pero nada de esto puede ser posible sin entender qué es lo que contamina los datos en primer lugar y de dónde viene exactamente.
Los 12 principales problemas de calidad de datos a los que se enfrentan las empresas
Recientemente revisé algunas notas de clientes y reuní una lista de los 12 principales problemas de calidad de datos que suelen estar presentes en los datos organizativos de una empresa. Echemos un vistazo a esta lista.
Problema#01: Falta de unicidad de los registros
Una organización media con 200-500 empleados utiliza actualmente unas 123 aplicaciones SaaS . La gran cantidad y variedad de aplicaciones utilizadas para capturar, gestionar, almacenar y utilizar los datos es la principal razón de la mala calidad de los mismos. Y el problema más común que se produce en estas situaciones es que se acaban almacenando varios registros para la misma entidad.
Por ejemplo, todas las interacciones que un cliente tiene con su marca durante su viaje de compra se registran en algún lugar de una base de datos. Estos registros pueden provenir de sitios web, formularios de páginas de aterrizaje, publicidad en redes sociales, registros de ventas, registros de facturación, registros de marketing, registros de puntos de compra y otras áreas similares. Si no hay una forma sistemática de identificar las identidades de los clientes y de fusionar la información nueva con la existente, puede acabar habiendo duplicados en todos sus conjuntos de datos.
Y para solucionar la duplicación, tendrá que ejecutar algoritmos avanzados de coincidencia de datos que comparen dos o más registros y calculen la probabilidad de que pertenezcan a la misma entidad.
How to build a unified, 360 customer view
Download this whitepaper to learn about why it’s important to consolidate your data to get a 360 view.
DownloadProblema#02: falta de restricciones en las relaciones
Un conjunto de datos suele hacer referencia a varios activos de datos. Pero cuando no se define ni se aplica ninguna relación entre dos o más activos de datos distintos, se puede acabar con mucha información incorrecta e incompleta.
Considere este escenario como ejemplo: Su portal de clientes contiene registros de los nuevos negocios que ganó este año, así como de los clientes existentes que se actualizaron desde el año pasado. Aparte de la información básica del cliente, hay definitivamente algunos campos de cliente que sólo son aplicables para una Nueva Empresa y otros que sólo funcionan para un Nuevo Cliente. Puede manejar ambos escenarios con el mismo modelo de datos generalizado, pero puede abrir las puertas a muchos problemas de calidad de datos, como la falta de información necesaria, así como información ambigua o incorrecta en los registros de los clientes.
Para manejar este tipo de escenarios, siempre hay que crear modelos de datos específicos y reforzar las relaciones entre ellos. Al imponer una relación padre/hijo (supertipo/subtipo) entre las entidades, está facilitando la captura, actualización y comprensión de los datos a quienes se ocupan de esta información. Véase el siguiente diagrama ERD como ejemplo. Los campos básicos de Cliente se mantienen separados de sus subtipos hijos, es decir, Nuevo Negocio y Cliente Existente.
Problema#03: Falta de integridad referencial
La integridad referencial significa que los registros de datos son fieles a su homólogo de referencia. Para entender los problemas producidos por la falta de integridad referencial, consideremos el ejemplo de una empresa minorista. Una empresa de venta al por menor probablemente almacena sus registros de ventas en una tabla de Ventas , y cada registro menciona qué producto se vendió cuando se realizó esa venta. Por lo tanto, es probable que espere encontrar IDs de ventas así como IDs de productos en la tabla de ventas . Pero si un registro de ventas hace referencia a IDs de productos que no existen en la tabla de productos , es obvio que sus conjuntos de datos carecen de integridad referencial.
Estos problemas pueden llevar a sus equipos a crear informes incorrectos, enviar productos incorrectos o enviar productos a clientes que no existen, etc.
Problema#04: Falta de cardinalidad de las relaciones
La cardinalidad de la relación se refiere al número máximo de relaciones que dos entidades pueden tener entre sí. Normalmente, se pueden crear diferentes tipos de relaciones entre los objetos de datos, dependiendo de cómo se permitan las transacciones comerciales en una empresa.
Considere los siguientes ejemplos para comprender la cardinalidad entre diferentes objetos de datos, como Cliente, Compra, Ubicación y Producto:
- Un cliente sólo puede tener una ubicación a la vez
- Un cliente puede hacer muchas compras
- Muchos clientes pueden ser de un mismo lugar
- Muchos clientes pueden comprar muchos productos
Si las restricciones de cardinalidad no están bien definidas, puede dar lugar a una serie de problemas de calidad de datos en su conjunto de datos.
Problema#05: Falta de unicidad y significado de los atributos
A menudo encontramos problemas relacionados con los atributos o las columnas del conjunto de datos. Muchas veces los modelos de datos no se definen explícitamente y, por tanto, la información resultante se considera inutilizable. Los problemas más comunes encontrados son:
- Hay varias columnas con el mismo nombre, que contienen información diferente para un registro.
- Hay varias columnas con nombres diferentes, que técnicamente significan lo mismo y, por tanto, almacenan la misma información.
- Los títulos de las columnas son ambiguos y confunden al operador de entrada de datos sobre lo que debe almacenar en la columna.
- Algunas columnas se dejan siempre vacías, ya sea porque están obsoletas o porque no hay ninguna fuente para obtener esa información.
- Algunas columnas no se utilizan nunca y, por tanto, se almacenan innecesariamente.
Todos estos escenarios muestran cómo los atributos se gestionan mal dentro de un conjunto de datos y aumentan el número de problemas de calidad de los datos.
Problema#06: falta de restricciones de validación
El mayor número de problemas de calidad de los datos se debe a la falta de restricciones de validación. Las restricciones de validación garantizan que los valores de los datos sean válidos y razonables, así como que estén normalizados y formateados de acuerdo con los requisitos definidos. Por ejemplo, la falta de comprobación de las restricciones de validación para el nombre del cliente llevaría a los siguientes errores:
- Espacios extra en el nombre (ya sea al principio, al final o con doble espacio entre ellos),
- Uso de símbolos y caracteres inapropiados,
- La longitud del nombre es demasiado larga,
- Los segundos nombres con una sola letra no se escriben con mayúscula o no terminan con un punto,
- Todas las letras del nombre, del segundo nombre y de los apellidos se escriben en mayúsculas, en lugar de escribir sólo la primera letra.
Además, algunos campos pueden contener abreviaturas y códigos incorrectos, u otros valores que no pertenecen al dominio del atributo. Si estas restricciones no se definen en sus modelos de datos y se aplican en los puntos de entrada de datos, acabará teniendo muchos errores de validación en los campos más críticos y básicos de su conjunto de datos, como el nombre de un cliente.
Problema#07: Falta de fórmulas y cálculos precisos
Muchos campos de un conjunto de datos se derivan o se calculan a partir de otros campos. Así, las fórmulas se diseñan, se implementan y se ejecutan automáticamente cada vez que se introducen o actualizan nuevos datos en los campos dependientes. Cualquier error presente en las fórmulas o en los cálculos puede llevarle a tener información incorrecta en toda la columna del conjunto de datos. Esto invalida el campo para su uso en cualquier propósito previsto.
Algunos ejemplos de campos que se calculan a partir de otros son la edad calculada a partir de los cumpleaños, el descuento aplicable calculado a partir del número de productos comprados o cualquier otro cálculo porcentual.
Problema#08: Falta de coherencia entre las fuentes
Uno de los retos más comunes asociados a los datos es mantener una definición sobre la misma «cosa» en todos los nodos o fuentes de datos. Por ejemplo, si una empresa utiliza un CRM y una aplicación de facturación independiente, el registro de un cliente acabará en las bases de datos de ambas aplicaciones. La tarea de mantener una visión coherente -o simplemente, la misma- de la información de los clientes en todas las bases de datos a lo largo del tiempo es difícil.
La falta de coherencia puede desordenar los informes en todas las funciones y operaciones de su empresa. La coherencia no sólo se refiere a los significados de los valores de los datos, sino también a su representación; por ejemplo, cuando los valores no son aplicables o no están disponibles, deben utilizarse términos coherentes para representar la falta de disponibilidad de los datos en todas las fuentes.
Problema#09: Falta de exhaustividad de los datos
La integridad de los datos se refiere a la presencia de los campos necesarios en el conjunto de datos. La integridad de un conjunto de datos puede calcularse verticalmente (a nivel de atributos) u horizontalmente (a nivel de registros). Normalmente, los campos se marcan como obligatorios/requeridos para garantizar la integridad de un conjunto de datos, ya que no todos los campos son necesarios.
Este problema de calidad de los datos suele aparecer en los conjuntos de datos en los que se deja un gran número de campos en blanco, para un gran número de registros. Pero el vacío no significa necesariamente que esté incompleto. La exhaustividad del conjunto de datos sólo puede medirse con exactitud si primero se clasifica cada campo de un modelo de datos de la siguiente manera:
- ¿Es un campo obligatorio? Es decir, no se puede dejar vacío; por ejemplo, el DNI de un cliente.
- ¿El campo es opcional? Es decir, no tiene que ser necesariamente rellenado; por ejemplo, el campo Aficiones de un cliente.
- ¿Es el campo inaplicable en ciertos casos? Es decir, se vuelve irrelevante según el contexto del registro, y debe dejarse en blanco; por ejemplo, Nombre del cónyuge para un cliente no casado.
Problema#10: Falta de actualidad de los datos
Los datos envejecen muy rápido, ya sea que un cliente haya cambiado su dirección residencial, una dirección de correo electrónico o su apellido haya cambiado debido a su estado civil. Estos cambios pueden afectar a la actualidad de su conjunto de datos y hacer que tenga datos de hace semanas o meses, lo que le lleva a presentar y basar decisiones críticas en información obsoleta. Para garantizar la actualidad de su conjunto de datos, puede establecer recordatorios para actualizar los datos, o establecer límites a la antigüedad de un atributo, garantizando que todos los valores se sometan a revisión y actualización en un tiempo determinado.
Problema#11: Falta de conocimientos sobre datos
A pesar de todos los esfuerzos realizados para proteger los datos y su calidad en todos los conjuntos de datos, la falta de conocimientos sobre los datos en una organización puede seguir causando mucho daño a sus datos. Los empleados suelen almacenar información errónea, ya que no entienden lo que significan ciertos atributos. Además, no son conscientes de las consecuencias de sus acciones, como las implicaciones de actualizar los datos en un determinado sistema o para un determinado registro.
Estas discrepancias sólo pueden eliminarse creando y diseñando planes y cursos de alfabetización de datos que introduzcan a los equipos en los datos de la organización y los expliquen:
- Lo que contiene,
- Qué significa cada atributo de los datos,
- Cuáles son los criterios de aceptabilidad de su calidad,
- ¿Cuál es la forma correcta e incorrecta de introducir/manipular datos?
- ¿Qué datos utilizar para conseguir un determinado resultado?
Problema nº 12: errores de escritura y otros errores humanos
Los errores ortográficos o de escritura son una de las fuentes más comunes de errores en la calidad de los datos. Se sabe que los humanos cometen al menos 400 errores al realizar 10.000 entradas de datos. Esto demuestra que incluso con la presencia de identificadores únicos, comprobaciones de validación y restricciones de integridad, existe la posibilidad de que el error humano intervenga y haga que la calidad de los datos se deteriore.
Uso de herramientas de calidad de datos de autoservicio
Acabamos de repasar los distintos tipos de problemas de calidad de los datos que se dan en un conjunto de datos. Los equipos que luchan por mantener niveles aceptables de calidad de datos en toda la organización necesitan las herramientas adecuadas. Aquí es donde una herramienta de gestión de la calidad de los datos puede resultar útil. Una herramienta de autoservicio «todo en uno» que perfila los datos, realiza diversas actividades de limpieza de datos, coteja los duplicados y genera una única fuente de verdad.
DataMatch Enterprise es una de esas herramientas que facilita a los equipos de datos la rectificación de errores de calidad de datos con rapidez y precisión, y les permite centrarse en tareas más importantes. Los equipos de calidad de datos pueden perfilar, limpiar, cotejar, fusionar y purgar millones de registros en cuestión de minutos, y ahorrar mucho tiempo y esfuerzo que normalmente se desperdicia en estas tareas.
Para saber más sobre cómo podemos ayudarle, puede descargar una prueba gratuita hoy mismo o reservar una demostración con nuestros expertos.
Getting Started with DataMatch Enterprise
Download this guide to find out the vast library of features that DME offers and how you can achieve optimal results and get the most out of your data with DataMatch Enterprise.
Download