Blog

La importancia de la elaboración de perfiles de datos para su gestión

Cualquier profesional de los datos estará de acuerdo en que disponer de datos precisos, limpios y coherentes es fundamental para cumplir los objetivos empresariales. Y, sin embargo, sólo un puñado de empresas -el 16%, según Chief Marketing- afirma con confianza que sus datos se ajustan a un estándar elevado. De hecho, el personal de marketing de nivel C y superior de la Encuesta de datos y análisis de marketing de Gartner de 2020, citó la «mala calidad de los datos» como una de las tres razones principales por las que el análisis no es eficaz para la toma de decisiones.

¿Cómo pueden las empresas controlar la calidad de sus datos antes de que sea demasiado tarde? Veamos la importancia de la elaboración de perfiles de datos y por qué las empresas deben considerarla como un instrumento necesario para la calidad y la gestión de los datos.

¿Qué es la elaboración de perfiles de datos?

El experto en almacenes de datos Ralph Kimball define la creación de perfiles de datos como

«El análisis sistemático por adelantado del contenido de una fuente de datos, desde el recuento de bytes y la comprobación de cardinalidades hasta el diagnóstico más reflexivo sobre si los datos pueden cumplir los objetivos de alto nivel del almacén de datos».

En otras palabras, la elaboración de perfiles de datos es el proceso de diagnóstico de la salud de los datos empresariales para garantizar que están en condiciones de ser procesados posteriormente, como en el caso de la analítica, la migración o el almacén de datos. Es un precursor de la limpieza de datos en el que se eliminan y limpian los errores encontrados en la etapa de perfilado de datos.

La elaboración de perfiles de datos constituye un paso crucial para exponer los datos y descubrir diversas anomalías que, de otro modo, podrían quedar ocultas en forma de datos ausentes, no válidos, incompletos o inexactos. De este modo, la empresa puede evaluar mucho mejor las lagunas y tomar medidas para limpiar o descartar los datos para evitar cualquier repercusión negativa.

Un ejemplo de caso de uso de perfiles de datos

Una empresa de ropa consolidada decide realizar una campaña de boletines y correo directo para la temporada navideña y se encuentra con que los contactos de su CRM proceden de múltiples fuentes, cada una de ellas con diferentes controles de entrada y validación de datos (o falta de ellos). Para evitar llegar a los contactos equivocados y correr el riesgo de rebotes y entregas fallidas, decide perfilar los datos para encontrar correos electrónicos no válidos, duplicados, errores de puntuación y otros problemas.

Al ejecutar un perfil de datos en un pequeño subconjunto de datos, puede encontrar que:

  1. El formato de los nombres y la dirección de contacto es incoherente
  2. Varias entradas de contactos constan de espacios iniciales
  3. Muchos registros de la Dirección 2 faltan o están incompletos
  4. Los campos Estado y Teléfono contienen letras y
  5. Los registros de correo electrónico constan de signos de puntuación (,) y mucho más.

El número de errores encontrados en un subconjunto de datos tan pequeño puede ser suficiente para disminuir el rendimiento de las campañas de correo electrónico y correo directo de la empresa, con el consiguiente coste de las ventas y la reputación de la marca. Sin embargo, mediante la elaboración de perfiles de datos, la empresa puede evitar esas consecuencias limpiando los datos o descartándolos por completo.

¿Por qué la elaboración de perfiles de datos es fundamental para una empresa?

La importancia de la elaboración de perfiles de datos está estrechamente relacionada con el descubrimiento de datos malos y sucios. Estos pueden surgir en una organización debido a varias razones, algunas de las cuales son:

  1. Errores de introducción de datos: son errores que cualquiera de nosotros puede cometer al introducir la información, ya sea por omitir una letra, por errores de ortografía, de puntuación, de mayúsculas y minúsculas, por duplicados, etc.
  2. Entradas de múltiples usuarios: esto puede ocurrir debido a que varias personas acceden al mismo sistema, especialmente cuando no se les comunica un formato o una validación claros. Por ejemplo, el usuario 1 puede introducir la fecha de nacimiento como DD/MM/AAAA pero el usuario 2 puede recurrir a MM/DD/AAAA. Otros ejemplos pueden ser «NJ» y «New Jersey» para el estado y «Jon Adams Smith» y «J.A. Smith» para el nombre de contacto.
  3. Datos falsificados: a menudo se falsifican datos como el número de teléfono y la empresa para descargar un estudio de caso, asistir a un seminario web o inscribirse en una prueba de producto. Las empresas que no utilizan controles estrictos de validación de datos pueden hacer que se acumulen datos falsos en la base de datos de la empresa.
  4. Errores del sistema: También es posible que los datos que residen en la base de datos o la aplicación se corrompan debido a la falta de redundancia incorporada al interactuar con múltiples ordenadores y sistemas. Por ejemplo, cuando un registro se actualiza en una base de datos debido a una transacción externa, a veces es posible que se rechace.

Teniendo en cuenta cómo surgen estos errores en la base de datos de una organización, en el CRM y en otras fuentes de datos, hacer un chequeo de la salud utilizando perfiles de datos puede señalar señales de advertencia a una empresa para diferentes casos de uso.

Ventas y marketing

La elaboración de perfiles de datos puede exponer el grado de limpieza de la información de los clientes potenciales y de los prospectos para la eficacia de las campañas de marketing y ventas. Al identificar los correos electrónicos, las direcciones y los números de teléfono que faltan, una empresa puede evitar el envío de correos electrónicos no deseados, la pérdida de envíos postales y el tiempo que pierden los representantes de ventas llamando a números no válidos.

Prevención del fraude y cumplimiento de la normativa

La elaboración de perfiles de datos puede ser igualmente útil para perfilar las bases de datos nacionales para la prevención del fraude fiscal o para el cumplimiento de la nueva normativa. En el caso del fraude fiscal, la elaboración de perfiles puede revelar cuántos contactos carecen de detalles o si sus datos de código postal y plus 4 se ajustan a la validación de campo correcta o no.

Comparación de pacientes y asistencia sanitaria

Las organizaciones sanitarias también pueden beneficiarse de la comprobación del alcance de los errores en los datos de sus historias clínicas electrónicas para el cotejo de pacientes y otros casos de uso. Un profesional sanitario que disponga de suficiente información sobre el historial de los pacientes estará mejor equipado para ofrecer el diagnóstico y el tratamiento adecuados.

Finanzas y banca

La elaboración de perfiles de datos para bancos e instituciones financieras puede implicar la identificación de la coherencia de los datos en múltiples formatos y sistemas para obtener una visión cohesiva del cliente.

Técnicas habituales de elaboración de perfiles de datos

Existen varios enfoques en los que se basa la elaboración de perfiles de datos, como:

  1. Perfilado de columnas: consiste en examinar las tablas de datos de una columna para ver el número de veces que se repite un registro en busca de patrones de datos.
  2. Perfiles de columnas cruzadas: se trata de identificar las relaciones padre e hijo entre columnas mediante la realización de análisis de claves y dependencias. El primero busca registros dentro de una tabla para identificar una clave primaria, mientras que el segundo busca registros que dependen de esa clave primaria.
  3. Perfiles cruzados de tablas: busca las claves foráneas que puedan existir, así como las redundancias en los datos y los posibles mapeos mediante el examen de las diferencias en la sintaxis y los tipos de datos.

Desafíos de los perfiles de datos convencionales

Por muy importante que sea la elaboración de perfiles de datos, los enfoques convencionales tienen su parte de desafíos. En primer lugar, los usuarios encargados de elaborar los perfiles de los datos no suelen conocer el alcance total de los mismos ni cómo se utilizarán para la toma de decisiones. Por ejemplo, es poco probable que un ingeniero de datos sepa qué registros pertenecientes a números personales o de propiedad serán precisos o incoherentes.

En segundo lugar, la escala de los datos, especialmente en el contexto de los big data, puede hacer que la elaboración de perfiles sea extremadamente difícil. El análisis de registros inexactos o no corruptos en millones de registros puede ser desalentador y llevar mucho más tiempo del que exige el proyecto.

Además, los valores atípicos o extremos pueden ser difíciles de detectar en grandes volúmenes de datos. No es infrecuente encontrar conjuntos de datos que contengan valores atípicos que puedan sesgar los análisis, y la identificación del número de tales registros en el marco de la elaboración manual de perfiles suele ser un reto importante.

Realización de perfiles de datos con DataMatch Enterprise

Teniendo en cuenta que la elaboración de perfiles manual se busca con muchas limitaciones, las herramientas de elaboración de perfiles de datos, como DataMatch Enterprise (DME ) de Data Ladder, pueden ser una alternativa adecuada.

A diferencia de otras herramientas de perfilado de datos, el DME viene equipado con patrones de expresiones regulares (RegEx) para detectar automáticamente patrones válidos e inválidos, así como una serie de anomalías como:

  1. Valores ausentes o nulos
  2. Espacios iniciales y finales
  3. Errores de puntuación
  4. Errores de minúsculas, de inversión y de bloqueo de mayúsculas
  5. Números en letras y letras en números y mucho más

Para empezar con el perfilado de datos utilizando el ISD, primero ve a la pestaña GESTIÓN DE PROYECTOS en la esquina superior izquierda y crea un nuevo proyecto.

Después, verá el módulo
IMPORTACIÓN DE DATOS
módulo en el que importará las fuentes de datos pertinentes (Excel, Oracle, SQL Server, etc.) para su proyecto.

Después de elegir las fuentes de datos, seleccione Generar perfil para cada fuente, tras lo cual el ISD construirá un perfil como se muestra aquí.

A continuación, puede analizar detenidamente el perfil de datos de acuerdo con los patrones RegEx que detecta, crear un patrón propio para los datos propios y marcar los registros que no se ajusten a sus requisitos de validación de datos.

Para obtener más información sobre cómo el ISD puede perfilar y encontrar errores en sus datos para las necesidades de correspondencia de datos, migración de datos y almacén de datos, póngase en contacto con nosotros o descargue la prueba gratuita hoy mismo.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.