Blog

Qué es la elaboración de perfiles de datos: Alcance, técnicas y desafíos

Hoy en día, las empresas dependen en gran medida de los datos para hacer crecer sus negocios y ampliar sus objetivos y expectativas. Se están invirtiendo enormes esfuerzos en idear la hoja de ruta perfecta para la estrategia de datos y en utilizar la información como el activo empresarial más importante; aun así, los resultados no son satisfactorios. La incapacidad de una organización para entender sus datos lo suficientemente bien y luego asignarlos correctamente a los resultados esperados es la razón más común del fracaso de las iniciativas basadas en datos.

Aquí es donde la elaboración de perfiles de datos desempeña un papel importante.

¿Qué es la elaboración de perfiles de datos?

La elaboración de perfiles de datos es el proceso de descubrir detalles ocultos sobre la estructura y el contenido de sus conjuntos de datos.

El uso de estos detalles descubiertos depende de lo que se quiera conseguir con los datos. Por ejemplo, si se quiere mejorar la calidad de los datos, un perfil de datos ayuda a identificar posibles oportunidades de limpieza de datos y a evaluar el grado de mantenimiento de sus datos en relación con las dimensiones de calidad de los mismos.

Alcance de la elaboración de perfiles de datos: ¿es sólo una prueba de calidad de datos?

La elaboración de perfiles de datos se considera en la mayoría de los casos un requisito para garantizar la calidad de los datos, cuando en realidad su aplicación y uso es mucho más que eso. La elaboración de perfiles de datos es un proceso sistemático que implementa una serie de algoritmos que analizan y evalúan los detalles empíricos de un conjunto de datos, y dan como resultado una visión resumida de la estructura de los datos y sus valores. Esta información se puede utilizar para cualquier fin: por ejemplo, para destacar posibles problemas de calidad de los datos, para decidir las áreas de mejora, para mapear otro perfil de datos para un proyecto de fusión, etc.

Veamos algunos contextos básicos en los que se utiliza ampliamente el perfilado de datos:

1. Ingeniería inversa de datos para encontrar los metadatos que faltan

En muchos casos en los que se capturan datos desde hace mucho tiempo, los metadatos suelen faltar o estar incompletos. Los metadatos representan detalles sobre cada atributo de un conjunto de datos, como su:

  • Definición: propósito del atributo que se almacena,
  • Tipo de datos: el tipo de datos que puede contener; por ejemplo, cadena, número, fecha, etc,
  • Tamaño: el número máximo o mínimo de caracteres que puede contener,
  • Dominio: el espacio del que deriva sus valores; por ejemplo, los valores de la columna País sólo pueden derivarse de una lista de países reales existentes en el mundo.

En ausencia de esta información, los valores de un atributo se someten a ingeniería inversa -analizada y resumida- para descubrir los metadatos que faltan, de modo que puedan utilizarse para otras actividades como la construcción del modelo de datos de la empresa, la planificación de las migraciones de datos, la renovación de los procesos empresariales, etc.

2. Analizar las anomalías

Antes de poder utilizar los datos para cualquier fin, hay que confirmar que están libres de anomalías, ya que de lo contrario se produciría un sesgo en los resultados analizados. La elaboración de perfiles de datos ayuda a analizar estadísticamente un conjunto de datos y a identificar una serie de valores que se encuentran dentro del rango aceptable, así como a detectar cualquier valor atípico que pueda estar presente. El análisis estadístico de un conjunto de datos examina las distribuciones de frecuencias, los valores variantes, el porcentaje de valores ausentes, así como las relaciones entre las columnas del mismo y de diferentes conjuntos de datos.

3. Descubrir las reglas implícitas de los datos

En la forma en que se capturan, almacenan y manipulan los datos, se aplica una biblioteca de reglas de datos para garantizar el cumplimiento de las normas de datos. A veces estas reglas son bastante obvias e intencionadas, pero otras veces, estas reglas pueden ser completamente involuntarias e implícitas dentro de la lógica y los procesos de una empresa.

Ejemplos de estas reglas son las restricciones de integridad o las dependencias relacionales entre atributos. Un perfil de datos puede ayudarle a extraer las reglas ocultas para que puedan integrarse intencionadamente en el ciclo de vida de los datos.

Tres niveles de perfilado de datos

El proceso de elaboración de perfiles de datos se desarrolla en tres niveles. Dependiendo de cómo se necesite utilizar la salida de perfiles, se puede ejecutar el perfilado en uno solo o en una combinación de niveles. La complejidad de los cálculos aumenta a medida que aumenta el nivel (más sobre esto en la siguiente sección).

En el primer y primer nivel, se analiza una sola columna ejecutando diversas técnicas estadísticas. En el siguiente nivel, tiene lugar el análisis de las relaciones entre múltiples columnas dentro del mismo conjunto de datos. Y por último, en el tercer nivel, se analizan las relaciones que existen entre las columnas de diferentes conjuntos de datos o tablas.

Veamos cada nivel con más detalle.

1. Perfil de la columna

La creación de perfiles de columna evalúa las diferentes características que representan los valores de una columna y proporciona información sobre su estructura, tanto en términos de metadatos como de contenido. Al perfilar una columna, se realizan análisis de frecuencia, estadísticos y descriptivos.

a. Análisis de la frecuencia

Se trata de una serie de técnicas relacionadas con el recuento y la distribución de valores en una columna, como por ejemplo

  1. Análisis de rangos: evalúa si los valores de una columna pueden someterse a una ordenación y si existe un rango bien definido (valores mínimos y máximos) dentro del cual se pueden asignar todos los valores.
  2. Análisis nulo: registra el porcentaje de valores que son nulos (vacíos) en la columna.
  3. Análisis del recuento de valores distintos: cuenta el número de valores distintos que aparecen en la columna.
  4. Análisis de la distribución de valores: evalúa cómo se distribuyen los valores de una columna dentro del rango definido.
  5. Análisis de unicidad: etiqueta si un valor de una columna aparece una sola vez (es único) o no.
b. Análisis estadístico

Este análisis suele realizarse para las columnas numéricas o las relacionadas con las marcas de tiempo. Ofrece una visión agregada o resumida de la columna, como por ejemplo

  1. Valor mínimo/máximo: identifica el valor mínimo y máximo de la columna ordenando todos los valores.
  2. Media: calcula el valor medio de la columna.
  3. Mediana: selecciona el valor medio del conjunto de columnas ordenadas.
  4. Desviación estándar: calcula la variación presente en el conjunto de valores de la columna.
c. Análisis descriptivo

Por último, el análisis descriptivo profundiza en el contenido de la columna, en lugar de centrarse en su estructura y distribución. Se trata de:

  1. Análisis del tipo de datos: determina el tipo de datos y el tamaño máximo de la cuenta de caracteres que contiene; por ejemplo, cadena, número, fecha, etc.
  2. Análisis del tipo de datos personalizado: analiza semánticamente los valores para ver si existe un tipo de datos abstracto o personalizado para la columna; por ejemplo, Dirección, o Número de teléfono, etc.
  3. Análisis de patrones: descubre patrones o formatos ocultos utilizados en los valores de las columnas.
  4. Análisis del dominio: delimita el espacio del que se derivan los valores de la columna; por ejemplo, los valores de la columna País sólo pueden derivarse de una lista de países reales existentes en el mundo.

2. Perfiles de columnas cruzadas

Este tipo de análisis identifica las dependencias o relaciones presentes entre varias columnas. Al tratarse de una mayor cantidad de datos, requiere más recursos.

a. Análisis de claves primarias

Una clave primaria identifica de forma exclusiva cada entidad presente en un conjunto de datos. Por ejemplo, una columna Número de la Seguridad Social para un conjunto de datos de clientes identifica de forma exclusiva a cada cliente; de forma similar, la columna Número de fabricante del producto para el conjunto de datos de productos identifica de forma exclusiva a cada producto, y así sucesivamente.

A menudo, los conjuntos de datos no contienen estos atributos de identificación única o están presentes, pero faltan la mayoría de sus valores. En estos casos, se selecciona una combinación de columnas y se examinan sus valores para determinar posibles claves primarias que identifiquen de forma exclusiva cada registro.

b. Análisis de la dependencia

Este tipo de análisis identifica las dependencias funcionales entre múltiples columnas. Estas relaciones suelen estar integradas en el contenido de los atributos. Por ejemplo, hay una relación entre las dos columnas Ciudad y País. Si dos filas de un conjunto de datos tienen la misma ciudad, sus valores correspondientes de país también deben ser iguales.

Este tipo de perfil de datos le ayuda a documentar todas las relaciones presentes en su conjunto de datos, ya sean genéricas o específicas de sus procesos organizativos.

3. Perfiles cruzados

El último nivel de perfilado de datos es el más complejo desde el punto de vista computacional, ya que implica el análisis de múltiples columnas en varias tablas. Esto se hace para determinar las relaciones que pueden existir entre las tablas, así como la forma en que se mantienen estas relaciones. Incluye las siguientes técnicas:

a. Análisis de claves extranjeras

Durante la creación de perfiles entre tablas, se analizan las claves externas para comprender cómo una columna de una tabla relaciona sus registros con otra tabla. Por ejemplo, una empresa puede guardar la información personal de sus empleados en una tabla, y sus datos laborales en otra tabla. Por lo tanto, en la tabla de empleados debe haber una clave foránea que relacione el rol de trabajo de cada individuo con la lista de roles de trabajo disponibles y otra información relacionada, como el departamento, los detalles de compensación, etc.

b. Análisis de registros huérfanos

Este análisis examina si se está violando una relación de clave extranjera. Ampliando el ejemplo anterior, la violación puede ocurrir cuando el registro personal de un empleado identifica su rol de empleo utilizando una clave foránea que no está presente en la tabla de roles de empleo.

Durante la elaboración de perfiles cruzados, se determinan todos esos registros huérfanos para poder actualizar y completar los datos que faltan.

c. Columnas duplicadas

Muchas veces, la misma información se almacena en varias columnas en varias tablas. También se puede almacenar información diferente en varias columnas con el mismo nombre. Estas similitudes/diferencias se analizan en columnas a través de las tablas evaluando los valores de las columnas y sus intersecciones.

Desafíos encontrados durante la elaboración de perfiles de datos

Si bien la elaboración de perfiles de datos es una consideración importante en cualquier iniciativa centrada en los datos, podría irse fácilmente de las manos en función del alcance y la magnitud del proceso de análisis. A continuación se exponen algunos de los retos más comunes que se encuentran durante la elaboración de perfiles de datos:

1. Rendimiento del sistema

El proceso de creación de perfiles de datos es intensivo desde el punto de vista computacional, ya que implica una gran cantidad de comparaciones de columnas, tanto dentro de las tablas como entre ellas. Esto requiere un gran número de recursos computacionales, como memoria y espacio en disco, así como más tiempo para completar y construir los resultados de salida. Por ello, emplear un sistema que pueda soportar cálculos complejos es un serio desafío.

2. Limitación del alcance de los resultados

Dado que los informes de los perfiles de datos se generan resumiendo y agregando los valores de los datos, debe haber un umbral que defina el nivel de resumen que debe aplicarse. Esto ayuda a obtener resultados más significativos y enfocados.

Por ejemplo, es posible que no quiera conocer los valores que sólo aparecieron una o dos veces en una columna, pero si apareció más de diez veces, podría añadir valor a la integración y, por tanto, debería incluirse. Por lo tanto, la capacidad de limitar o condicionar lo que entra y lo que no entra en el informe final del perfil es una decisión difícil de tomar.

3. Obtención de valor a partir de los informes perfilados

El análisis de conjuntos de datos para comprender su estructura y formación de contenidos es sólo una parte de la historia. Los perfiles de datos generados deben ser analizados para comprender la siguiente línea de acción. Deben participar profesionales de los datos con experiencia que puedan examinar los informes y explicar por qué los datos son como son, y qué se puede hacer para transformarlos según sea necesario.

4. Herramientas de perfilado de datos de autoservicio

Teniendo en cuenta la complejidad computacional que puede alcanzar la elaboración de perfiles de datos, es un proceso que normalmente se espera que realicen profesionales expertos en tecnología o datos. La falta de disponibilidad de herramientas de software de perfilado de datos en régimen de autoservicio es un reto habitual.

Una herramienta de perfilado de datos de autoservicio que pueda ofrecer una rápida visión de 360º de los datos e identificar anomalías básicas, como valores en blanco, tipos de datos de campo, patrones recurrentes y otras estadísticas descriptivas, es un requisito básico para cualquier iniciativa basada en datos. DataMatch Enterprise de Data Ladder es una solución de calidad de datos totalmente potenciada que ofrece la elaboración de perfiles de datos como el primero de muchos pasos para corregir, optimizar y refinar sus datos.

Para saber más sobre cómo nuestra solución puede ayudarle a resolver sus problemas de calidad de datos, regístrese para una prueba gratuita hoy mismo o concierte una demostración con uno de nuestros expertos.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.