Blog

¿Qué significa la calidad de datos para su almacén de datos?

Los datos defectuosos son la causa de que muchos proyectos de almacenamiento de datos no den resultados; de hecho, la calidad de los datos en los almacenes de datos sigue siendo un reto importante para muchas empresas. La principal causa de los datos erróneos es la integración de los datos de varios sistemas, pero esta integración es la base de cualquier proyecto de almacenamiento de datos.

¿Qué significa la calidad de datos en un almacén de datos?

El propósito del almacén de datos es construir una capa unificada que contenga datos de todas las fuentes de datos relevantes de la organización. Esto significa que hay que integrar los datos de múltiples sistemas y optimizarlos para el análisis y la inteligencia empresarial. Por lo tanto, el almacén de datos no genera ningún dato propio y cualquier problema de calidad de los datos se encuentra en los sistemas de origen o surge como resultado de cómo se interpretan los datos en los diferentes sistemas. El equipo de almacenamiento de datos debe asumir la responsabilidad de identificar estos problemas, idear formas de mejorar la calidad de los datos o conseguir el acuerdo de la empresa sobre determinados aspectos para que se consideren aceptables. Esto último puede parecer confuso, pero es fundamental para mantener un equilibrio entre el coste de mejorar la calidad de los datos y lo que la empresa está dispuesta a gastar.

Sin embargo, si se descuida la calidad de los datos, los usuarios del almacén de datos tendrán en sus manos datos inexactos e incompletos. Esto se traduce directamente en que sus datos no son representativos y en que los análisis son erróneos. Estos pueden ser los mismos análisis que utiliza la alta dirección para la toma de decisiones, y todos sabemos lo mal que lo hacen.
una sola decisión equivocada puede perjudicar a las empresas
.

4 formas inmediatas de mejorar la calidad de los datos en su almacén de datos

Rechazar el error: Tienes que decidir si quieres precisión o exhaustividad en cualquier caso. Si la exactitud es más importante, puede rechazar cualquier registro que contenga dicho error, si su corrección requiere más esfuerzo del que su empresa está dispuesta a realizar.

Aceptar el error: Si valora más la exhaustividad que la precisión, puede optar por ignorar el error y aceptar los registros con dichos errores en su almacén de datos si considera que los errores son tolerables, decidiendo corregir el error cuando su equipo pueda encontrar los valores correctos más adelante.

Corregir el error: Si tu equipo puede encontrar los valores correctos o el cambio de formato que solucionaría un error específico a un coste que puedes asumir, la elección es obvia.

Asignar valor por defecto: Si la exhaustividad es muy importante pero no se encuentra el valor correcto, puede asignar un valor por defecto para cada tipo de error para sustituir los datos erróneos.

Independientemente de la acción que se tome, es fundamental que los usuarios del almacén de datos entiendan las implicaciones de cada acción para que las tengan en cuenta en sus análisis.

Enfoques de la gestión de la calidad de los datos

Hemos visto que la calidad de los datos es un requisito clave en el almacenamiento de datos, pero en términos prácticos, solucionar los problemas de calidad en el almacén de datos es un proceso complejo. En esta sección se tratarán los enfoques para implementar un marco de calidad de datos para el almacén de datos, específicamente:

  • Comprensión de los datos de origen en el almacén de datos
  • Comprender las causas de los errores de calidad de los datos
  • Reunir datos de diferentes fuentes para mejorar la calidad
  • Añadir valor a los datos para aumentar su utilidad

Perfiles de datos: Comprender los datos de origen en el almacén de datos

Cuando se intenta mejorar algo, comprenderlo es el primer paso natural. El proceso de entender los datos existentes con respecto a cómo se quiere que sean en su forma final se llama «perfilado de datos». Esto incluye profundizar en los datos de origen y comprender el contenido, la estructura y las cardinalidades. Así es como identificamos dónde hay que aplicar los procesos de calidad de datos y qué enfoque elegir.

Con demasiada frecuencia, la elaboración de perfiles de datos se ha relegado a la trastienda de los procesos de extracción, transformación y carga (ETL), y sólo se ha llevado a cabo para comprobar pequeñas anomalías en los datos una vez que se ha completado el diseño del almacén de datos y es necesario entregar los datos de producción. En realidad, la elaboración de perfiles de datos debería ser el siguiente paso en su proyecto de almacenamiento de datos de calidad, una vez que haya reunido los requisitos empresariales. En esta fase, conocer la cantidad de trabajo que requerirán los datos de origen antes de ser utilizables para el análisis influirá en gran medida en el diseño y el tiempo de construcción del almacén de datos.

Al perfilar sus datos durante el proceso de diseño del almacén de datos, concéntrese en estos 4 resultados para obtener el máximo valor del esfuerzo:

  • La entrega más básica es un «no» a todo el proyecto. Los datos de origen que desea utilizar para construir su almacén de datos pueden tener demasiados errores o faltar demasiada información para que la iniciativa de almacenamiento de datos sea en absoluto viable para el análisis. Aunque esto puede interpretarse como un gran fracaso, en realidad es un resultado extremadamente valioso, porque ahora su equipo puede volver a centrar sus esfuerzos en otra parte en lugar de pasar semanas y meses construyendo un proyecto sólo para descubrir que el resultado final es un sistema de informes enormemente defectuoso que es inutilizable para la toma de decisiones. Estas sorpresas al final suelen acortar la carrera de los jefes de equipo de inteligencia empresarial.
  • El segundo entregable es una lista de los problemas que ya existen en los datos de origen y que deben solucionarse antes de que el proyecto pueda avanzar. Las correcciones son una dependencia externa importante y deben gestionarse bien para garantizar el éxito de su almacén de datos. Se puede pensar que los problemas pueden solucionarse más tarde, una vez que los datos se hayan escrito en el almacén de datos, pero entonces, cada vez que se sincronicen los sistemas operativos y el almacén de datos, los problemas aparecerán.
  • El tercer entregable es una lista de problemas de calidad de datos que se encuentran al extraer datos de múltiples fuentes y escribirlos en el almacén de datos. Un conocimiento profundo de estas cuestiones le ayudará a idear la lógica de transformación de datos y los métodos de gestión de excepciones que mejor se adapten a su escenario empresarial. También podrá determinar el procesamiento manual que será necesario para corregir las incoherencias y tenerlo en cuenta en el tiempo total que se necesita para completar el proyecto de almacenamiento de datos.
  • Y, por último, centrarse en las reglas de negocio no previstas anteriormente y en los problemas de las relaciones de clave externa y primaria y de las estructuras jerárquicas. Tendrá que indagar a un nivel más profundo para identificar estos problemas tan intrincados, pero si no se controlan, impregnarán el diseño del almacén de datos y pueden explotar fuera de proporción más adelante.

He aquí algunos ejemplos sencillos de problemas que la elaboración de perfiles de datos puede ayudar a descubrir:

Problema de calidad de los datos Ejemplo
Valor no válido El valor válido puede ser «1» o «2», pero el valor actual es «3»
Conformidad con las normas culturales Fecha = 1 de febrero de 2018 o 1-1-18 o 2-1-2018
Valor fuera del rango requerido Edad del cliente = 204
Verificación La ciudad y el estado no se corresponden con el código postal
Incongruencia de formatos Teléfono = +135432524 o (001)02325355

Calidad de datos: Comprender las causas de los errores en la calidad de los datos

¿Ha terminado de perfilar los datos y está listo para pasar a mejorar la calidad de los mismos? No tan rápido. La elaboración de perfiles de datos es un proceso continuo de descubrimiento. Establezca una cultura orientada a la calidad en su organización recompensando a las personas que encuentren y comuniquen problemas en los datos;
como hacen los fabricantes japoneses en la industria del automóvil
.

Una vez que tenga una idea justa de la calidad de sus datos, empiece a rediseñar los procesos para mejorar la calidad de los datos, mientras que la elaboración de perfiles se realiza continuamente en todos los niveles de la organización, desde los operadores de entrada de datos de primera línea hasta los ejecutivos de más alto nivel que utilizan los análisis. Será necesario realizar cambios en el sistema de origen, pero hay que tratarlos con delicadeza, equilibrando la implementación a nivel técnico y operativo mediante la implicación tanto de la empresa como del departamento de TI. A menos que su organización ya cuente con un sistema de gestión de datos maestros (MDM) que contenga copias maestras de todos los datos, querrá que su almacén de datos acabe sirviendo de MDM. Esto significa que es necesario limpiar, persistir, conformar y desduplicar numerosos conjuntos de datos en toda la organización en el almacén de datos.

El primer paso para mejorar la calidad de los datos una vez perfilados es una serie de pruebas incorporadas en cualquier punto del proceso de integración de datos. Las pruebas podrían referirse a una serie de reglas de negocio u operaciones matemáticas para validar sus datos, por ejemplo. Más adelante trataremos esta parte con más detalle.

Si un conjunto de datos supera las pruebas, está limpio y puede trasladarse al almacén de datos de producción para su modelado. Si no es así, su proceso de validación de datos debería ser capaz de hacerlo:

  • Crear un registro de eventos de error, y
    • O bien detener el proceso
    • O suspender los datos erróneos
    • O simplemente etiquetar los datos

Pruebas de calidad de los datos

En términos de arquitectura, todas las pruebas de calidad de datos están estructuradas de forma similar, pero difieren en su alcance. Veamos las categorías de calidad de datos definidas por
Jack Olsen en su libro «Data Quality: La dimensión de la exactitud»
:

  • Pruebas a nivel de columna

Los datos se comprueban a un nivel muy granular, dentro de una sola columna. Las reglas de calidad de datos que pueden aplicarse en esta fase incluyen la comprobación de si el valor es nulo, pertenece a una lista fija y finita, se encuentra dentro de un rango especificado, se ajusta a los patrones de campo especificados en la base de datos, no forma parte de listas de exclusión y pasa la comprobación ortográfica básica.

  • Pruebas a nivel de estructura

Este tipo de prueba comprueba las relaciones de los datos en varias columnas. Por ejemplo, los campos de las columnas pueden comprobarse para verificar una jerarquía, como una relación de uno a muchos. También se comprueban las relaciones de clave foránea y primaria. Cada campo de una columna específica puede comprobarse con otra columna para verificar algo como las direcciones postales.

  • Pruebas de reglas de negocio

Las pruebas complejas se realizan mediante la creación de reglas de negocio. Este tipo de pruebas puede consistir en algo así como la comprobación de la elegibilidad de un cliente de una aerolínea y su condición de Miembro Platino, verificando que sus millas de viajero frecuente superan los 2 millones y que el cliente ha sido miembro regular durante al menos 5 años para poder optar a la condición de Platino.

Con estas medidas, podemos empezar a actuar:

  • Rechazar los datos y excluirlos del almacén de datos si los errores son demasiado graves para ser reparados
  • Aceptar los datos cuando los errores están dentro de los límites tolerables, después de transmitirlo a los usuarios de la empresa
  • Fijar los datos cuando el error se puede arreglar sobre la marcha, por ejemplo, cuando hay varias versiones de la misma entidad de cliente, se puede designar una como registro maestro
  • Asigne un valor por defecto como «No disponible» cuando no pueda dejar un campo en blanco

La acción que debe realizar variará en función del tipo de datos con los que trabaje, y normalmente es responsabilidad del departamento de negocio que trabaja con un tipo específico de conjunto de datos.

Tenga en cuenta que todas las medidas que hemos analizado hasta ahora se centran en la mejora de la calidad de los datos existentes, en lugar de abordar la causa principal, que suele estar en el punto en el que los empleados de primera línea introducen los datos en el sistema transaccional. Si realmente se invierte en la mejora de la calidad de los datos, también será necesario implementar reglas que mejoren la calidad de los datos que se introducen. Por ejemplo, en una entidad financiera, la dirección puede darse cuenta de que los números de la seguridad social de los clientes suelen dejarse en blanco o introducirse incorrectamente. Podrían optar por aplicar una regla que haga que el valor del campo sea «obligatorio» en un formato específico para los números de la seguridad social (AAA-GG-SSSS) mientras que se rechazan las entradas sin sentido como 999-99-9999.

Integración de datos: Reunir datos de diferentes fuentes para mejorar la calidad

La integración de datos como metodología es diferente, pero en el contexto de la calidad de los datos, se refiere a la integración de datos sobre la misma entidad en diferentes sistemas. Por ejemplo, la información sobre un producto específico puede encontrarse en su base de datos de Estados Unidos, pero el mismo producto puede venderse también en diferentes países, lo que significa que los registros del mismo producto están repartidos en diferentes bases de datos con respecto a la región. En cada región, el producto puede venderse con un nombre diferente, bajo una marca distinta y con diferentes patrones utilizados para describir la información en los registros de la base de datos.

Al construir su almacén de datos, tendría que integrar todas estas piezas de información dispares en múltiples bases de datos para formar una vista maestra que pueda utilizarse para la elaboración de informes. Veamos un ejemplo:

Datos originales Datos después de la normalización
BMI Corp Corporación BMI
BMI Inc. BMI Incorporated
BMI Co. Empresa BMI
MR JOHN DEERE Sr. John Deere
Señor Jonathan Deere Sr. John Deere
Señor John DEERe Sr. John Deere
#(222)0202020 ext120 222-020-2020 ext 120
2220202020 x120 222-020-2020 ext 120
Sal nacional Compañía Nacional de Sal
NSC Compañía Nacional de Sal
N. Sal Compañía Nacional de Sal
Nacional S. Compañía Nacional de Sal

Utilizando nuestro ejemplo original de cliente y producto, la integración de datos de esta manera gira en torno a dos procesos importantes:

  • Reconocer si la misma entidad cliente existe en ambas fuentes
  • Combinar los datos de los clientes para obtener una visión consolidada de la tabla de productos

Cuando se trata de encontrar si dos entidades están vinculadas, se puede empezar con un campo común que probablemente exista en el mismo patrón en todos los sistemas. Para la entidad del cliente, este campo podría ser el número de identificación fiscal. Si existe el mismo número de identificación fiscal para los registros de los clientes en diferentes, acaba de identificar lo que es común de una manera muy eficiente. Sin embargo, rara vez tenemos la suerte de contar con soluciones tan sencillas en el mundo de las bases de datos.

Si no se puede encontrar un campo común, habría que cotejar toda la información disponible del producto en las tablas para determinar si existe la misma entidad de cliente entre dos sistemas. Las herramientas modernas de gestión de la calidad de los datos automatizan este tipo de trabajo, que antes llevaba a los expertos en la materia horas de búsqueda de enlaces en filas y tablas. Llevemos este ejemplo más lejos y veamos cómo podría coincidir la información del producto.

Digamos que su base de datos de Estados Unidos contiene la marca, la descripción del producto y el número de identificación del producto, todo en un campo, en diferentes patrones. En el Reino Unido, por ejemplo, la base de datos sólo registra la descripción del producto, pero también con distintos patrones según quién los haya introducido. Un
herramienta de calidad de datos automatizada
podría determinar la homogeneidad mediante:

  • Análisis de la descripción del producto de la base de datos de EE.UU. y el Reino Unido en atributos individuales y clasificación por marca
  • Aplicar operaciones a los nombres de las marcas para que sean coherentes
  • Corrección de las diferencias en el registro de los atributos de los productos
  • Utilizar la lógica difusa para hacer coincidir los atributos de los productos en ambas bases de datos
  • Mostrar informes de los productos que coinciden y vincularlos a una entidad del cliente

Utilizar la integración de datos de este modo ha ahorrado a las empresas toneladas de horas de trabajo al año. La mejor manera de hacerlo al construir su almacén de datos es poner una solución completa de limpieza de datos basada en la API y de correspondencia entre el origen y el destino.

Aumento de datos: Añadir valor a los datos para aumentar su utilidad

A estas alturas, ya hemos realizado un perfil de datos, hemos analizado las causas de la calidad de los datos y las medidas que hay que tomar, y hemos comprobado cómo la integración de los datos en múltiples fuentes para determinar lo que es común añade valor. El último paso natural para completar el ciclo de calidad de los datos es buscar formas de aumentar los datos de las entidades existentes con datos de fuentes externas, fuera de nuestras propias bases de datos.

En el caso de entidades como Cliente, el aumento de datos de este tipo es muy común. Su aplicación de automatización del marketing podría, por ejemplo, contener información valiosa sobre los clientes que podría utilizarse para aumentar los registros en el almacén de datos. La información adicional ayudará a su empresa a orientar mejor sus ofertas de productos al proporcionar oportunidades de segmentación más profundas.

La siguiente tabla ofrece un ejemplo de los tipos de datos que pueden obtenerse de fuentes externas para aumentar el registro maestro:

Estado CL
Ciudad Mover
ZIP 65464
ZIP+4 3234
Identificación de la entrega 3
Identificación de la ruta 4
Dirección 6546 House Way
Número de casa 6546
Calle Camino de la casa
Tipo de calle Camino
Identificación del condado 635
Nombre del condado Brillo
Distrito 47
Tipo de registro Personal
Latitud 35.4685
Longitud 64.2334
Grupo de Censos 35632165
Zona censal 35

En los datos del ejemplo anterior, una empresa podría examinar la dirección y los códigos postales y el código ZIP+4 para determinar si el cliente pertenece a un segmento de viviendas específico. Por ejemplo, las casas de una determinada región que tienen códigos ZIP+4 se construyeron en los años 80 y tenían 2500 pies cuadrados. Esta información podría utilizarse para dirigir determinadas ofertas de productos a todos esos clientes.

Aunque lo anterior es sólo un ejemplo, en realidad, el aumento de datos utilizando el campo de la dirección para construir la correlación es común. Los datos de los productos son otro ejemplo de datos que se utilizan con fines de aumento. Los patrones de compra, especialmente cuando se construyen modelos predictivos, pueden determinarse utilizando correlaciones en los datos de los productos con otros datos aumentados. Otro ejemplo de aumento de datos puede verse en el caso del fabricante. Como fabricante, sólo sabe qué y cuánto vende a los minoristas o mayoristas, pero no la cantidad real de producto vendido al cliente final. Empresas de investigación como Nielsen proporcionan datos de este tipo, que los fabricantes compran para conocer mejor los patrones de venta y así poder mejorar su oferta de productos y su estrategia en términos de inventario y entrega de productos.

Aunque no está directamente vinculado a la calidad de los datos en su esencia, el aumento de los datos debería ser el último paso natural si está construyendo un marco de gestión intensiva de la calidad de los datos en su organización.

Conclusión: Construir capacidades analíticas fiables y precisas con calidad de datos

El propósito de cualquier iniciativa de almacenamiento de datos es proporcionar inteligencia empresarial, y ese propósito se ve frustrado si no se presta suficiente atención a la creación de un marco de calidad de datos completo, con el resultado final de análisis inexactos y, por tanto, malas decisiones.

Utilice el marco de calidad de datos aquí descrito como base para construir sus propios procesos. Hay que centrarse en añadir valor a los datos existentes como sea, en lugar de limitarse a corregir los errores de los datos de producción y seguir adelante.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.