Blog

Guía de normalización de datos: Tipos, beneficios y proceso

Cuando se extraen datos de varias aplicaciones instaladas en la empresa, se espera recibir una definición y un formato coherentes de la misma información. Pero en la realidad, esto no suele ser así. Las variaciones presentes en los conjuntos de datos -entre aplicaciones e incluso dentro de la misma aplicación- hacen casi imposible utilizar los datos para cualquier propósito, desde las operaciones rutinarias hasta la inteligencia empresarial.

Hoy en día, una empresa media utiliza múltiples aplicaciones SaaS e internas. Cada sistema tiene sus propios requisitos, restricciones y limitaciones. Por ello, los datos alojados en las distintas aplicaciones están condenados a contener discrepancias. Y si tenemos en cuenta las faltas de ortografía, las abreviaturas, los apodos y los errores de escritura, nos damos cuenta de que los mismos valores pueden tener cientos de representaciones diferentes. Aquí es donde se hace imperativo estandarizar los datos para que sean utilizables para cualquier propósito.

En este blog, aprenderemos todo sobre la normalización de datos: qué es, por qué y cuándo se necesita, y cómo se puede hacer. Empecemos.

¿Qué es la estandarización de datos?

En el mundo de los datos, un estándar se refiere a un formato o representación al que debe ajustarse todo valor de un determinado dominio. Por lo tanto, normalizar los datos significa:

Proceso de transformación de una representación incorrecta o inaceptable de datos en una forma aceptable.

La forma más fácil de saber qué es «aceptable» es entender los requisitos de su empresa. Lo ideal es que las organizaciones se aseguren de que el modelo de datos utilizado por la mayoría de las aplicaciones -si no todas- se ajuste a sus necesidades empresariales. La mejor manera de lograr la estandarización de los datos es alinear su representación, estructura y definición con los requisitos de la organización.

Tipos y ejemplos de errores de normalización de datos

A continuación se ofrecen algunos ejemplos de cómo pueden acabar los datos no normalizados en el sistema:

  1. El número de teléfono del cliente se guarda como una cadena en un sistema, mientras que en otro sólo se permite que sea un número que contenga 8 dígitos, lo que provoca una incoherencia en el tipo de datos.
  2. El nombre del cliente se guarda como un solo campo en un sistema, mientras que el mismo se cubre como tres campos separados en otro sistema para el nombre, el segundo nombre y los apellidos, lo que lleva a una incoherencia estructural.
  3. La fecha de nacimiento del cliente tiene el formato MM/DD/AAAA en un sistema, mientras que la misma tiene el formato Mes Día, Año en otro sistema – lo que lleva a la inconsistencia del formato.
  4. El género del cliente se guarda como Mujer o Hombre en un sistema, mientras que el mismo se guarda como F o M en otro sistema, lo que lleva a la inconsistencia del valor del dominio.

Aparte de estas situaciones comunes, las faltas de ortografía, los errores de transcripción y la falta de restricciones de validación pueden aumentar los errores de normalización de datos en sus conjuntos de datos.

¿Por qué hay que normalizar los datos?

Cada sistema tiene su propio conjunto de limitaciones y restricciones, lo que da lugar a modelos de datos únicos y a sus definiciones. Por esta razón, puede ser necesario transformar los datos antes de que puedan ser consumidos correctamente por cualquier proceso de negocio.

Normalmente, se sabe que ha llegado el momento de normalizar los datos cuando se quiere:

1. Conformar los datos entrantes o salientes

Una organización tiene muchas interfaces que intercambian puntos de datos de partes interesadas externas, como proveedores o socios. Cada vez que los datos entran en una empresa o se exportan, es necesario ajustarlos a la norma requerida, pues de lo contrario el desorden de datos no estandarizados no hace más que crecer.

2. Preparar los datos para el BI o la analítica

Los mismos datos pueden representarse de múltiples maneras, pero la mayoría de las herramientas de BI no están especializadas para procesar todas las posibles representaciones de los valores de los datos y pueden acabar tratando los mismos datos con un significado diferente. Esto puede llevar a resultados de BI sesgados o inexactos. Por lo tanto, antes de alimentar los datos en sus sistemas de BI, deben ser limpiados, estandarizados y deduplicados, para que pueda obtener información correcta y valiosa.

3. Consolidar entidades para eliminar duplicidades

La duplicación de datos es uno de los mayores peligros para la calidad de los datos que afrontan las empresas. Para que las operaciones empresariales sean eficientes y sin errores, debe eliminar los registros duplicados que pertenezcan a la misma entidad (ya sea para un cliente, un producto, una ubicación o un empleado), y un proceso de deduplicación de datos eficaz requiere que se cumplan las normas de calidad de los datos.

4. Compartir datos entre departamentos

Para que los datos sean interoperables entre departamentos, tienen que estar en un formato comprensible para todos. Por lo general, las organizaciones tienen información de los clientes en los CRM que es entendida por la gente de ventas y marketing. Esto puede introducir retrasos en la finalización de las tareas y bloqueos en la productividad del equipo.

Limpieza de datos frente a estandarización de datos

Los términos limpieza de datos y normalización de datos suelen utilizarse indistintamente. Pero hay una pequeña diferencia entre ambos.

La limpieza de datos es el proceso de identificar datos incorrectos o sucios y sustituirlos por valores correctos, mientras que la normalización de datos es el proceso de transformar los valores de los datos de un formato inaceptable a un formato aceptable.

El objetivo y el resultado de ambos procesos es similar: se quiere eliminar la inexactitud y la incoherencia de los conjuntos de datos. Ambos procesos son vitales para su iniciativa de gestión de la calidad de los datos y deben ir de la mano.

¿Cómo normalizar los datos?

Un proceso de normalización de datos consta de cuatro sencillos pasos: definir, probar, transformar y volver a probar. Repasemos cada paso con un poco más de detalle.

1. Definir una norma

En el primer paso, debe identificar qué norma satisface las necesidades de su organización. La mejor manera de definir una norma es diseñar un modelo de datos para su empresa. Este modelo de datos representará el estado más ideal al que deben ajustarse los valores de los datos de una determinada entidad. Un modelo de datos puede ser diseñado como:

  1. Identifique los activos de datos cruciales para el funcionamiento de su empresa. Por ejemplo, la mayoría de las empresas capturan y gestionan datos de clientes, productos, empleados, ubicaciones, etc.
  2. Defina los campos de datos de cada activo identificado y decida también los detalles estructurales. Por ejemplo, puede querer almacenar el nombre, la dirección, el correo electrónico y el número de teléfono de un cliente, donde el campo nombre abarca tres campos y el campo dirección abarca dos.
  3. Asigne un tipo de datos a cada campo identificado en el activo. Por ejemplo, el campo Nombre es un valor de cadena, Número de teléfono es un valor entero, etc.
  4. Defina los límites de caracteres (mínimo y máximo) para cada campo. Por ejemplo, un nombre no puede tener más de 15 caracteres y el número de teléfono no puede tener más de 8 dígitos, etc.
  5. Defina el patrón al que deben atenerse los campos – puede que no sea aplicable a todos los campos. Por ejemplo, la dirección de correo electrónico de cada cliente debe ajustarse a la regex [chars]@[chars].[chars].
  6. Definir el formato en el que deben colocarse determinados elementos de datos dentro de un campo. Por ejemplo, la fecha de nacimiento de un cliente debe especificarse como MM/DD/AAAA.
  7. Defina la unidad de medida para los valores numéricos (si procede). Por ejemplo, la edad del cliente se mide por años.
  8. Definir el dominio de valores para los campos que deben derivarse de un determinado conjunto de valores. Por ejemplo, la edad del cliente debe ser un dígito entre 18 y 50, el sexo debe ser masculino o femenino, etc.

Un modelo de datos diseñado puede colocarse en un diagrama de clases ERD para ayudar a visualizar el estándar definido para cada activo de datos y cómo se relacionan entre sí. A continuación se muestra un ejemplo de modelo de datos para una empresa minorista:

2. Prueba de la norma

Las técnicas de estandarización de datos comienzan en el segundo paso, ya que el primero se centra en la definición de lo que debe ser, algo que se hace una vez o se revisa y actualiza de vez en cuando.

Ha definido la norma y ahora es el momento de ver si los datos actuales se ajustan a ella. A continuación, repasamos una serie de técnicas que comprueban los valores de los datos en busca de errores de estandarización y construyen un informe de estandarización que puede utilizarse para solucionar los problemas.

a. Análisis de registros y atributos

El diseño de un modelo de datos es la parte más crucial de la gestión de datos. Pero, por desgracia, muchas organizaciones no diseñan modelos de datos ni establecen estándares de datos comunes a tiempo, o las aplicaciones que utilizan no tienen modelos de datos personalizables, lo que les lleva a capturar datos con nombres de campos y estructuras diferentes.

Al consultar la información de diferentes sistemas, puede observar que algunos registros devuelven el nombre de un cliente como un solo campo, mientras que otros devuelven tres o incluso cuatro campos que cubren el nombre de un cliente. Por esta razón, antes de que cualquier conjunto de datos pueda ser examinado en busca de errores, hay que empezar por analizar los registros y los campos para obtener los componentes que deben ser probados para la normalización.

b. Informe sobre el perfil de los datos del edificio

El siguiente paso es pasar los componentes analizados por un sistema de perfiles. Una herramienta de perfilado de datos informa de diferentes estadísticas sobre los atributos de los datos, como

  • ¿Cuántos valores de una columna siguen el tipo de datos, el formato y el patrón requeridos?
  • ¿Cuál es el número medio de caracteres presentes en una columna?
  • ¿Cuáles son los valores máximos y mínimos presentes en una columna numérica?
  • ¿Cuáles son los valores más comunes presentes en una columna y cuántas veces aparecen?

c. Comparación y validación de patrones

Aunque las herramientas de perfilado de datos informan sobre las coincidencias de patrones, dado que es una parte importante de las pruebas de normalización de datos, lo discutiremos con un poco más de profundidad. Para hacer coincidir los patrones, es necesario definir primero una expresión regular estándar para un campo, por ejemplo, una expresión regular para las direcciones de correo electrónico puede ser ^[a-zA-Z0-9+_ .-]+@[a-zA-Z0-9 .-]+$. Todas las direcciones de correo electrónico que no sigan el patrón dado deben ser marcadas durante la prueba.

d. Uso de diccionarios

Se puede comprobar la normalización de determinados campos de datos cotejando los valores con diccionarios o bases de conocimientos. También puede ejecutarlas con diccionarios creados por el usuario. Esto se hace a menudo para coincidir con errores ortográficos, abreviaturas o nombres acortados. Por ejemplo, los nombres de empresas suelen incluir términos como LLC, Inc, Ltd. y Corp. Cotejarlos con un diccionario lleno de esos términos estándar puede ayudar a identificar cuáles no siguen la norma requerida o están mal escritos.

Más información sobre el uso de wordsmith para eliminar el ruido y normalizar los datos en masa.

e. Direcciones de prueba para la normalización

Mientras se prueban los datos para su estandarización, es posible que tenga que probar campos especializados, como ubicaciones o direcciones. La estandarización de direcciones es el proceso de cotejar el formato de las direcciones con una base de datos autorizada -como la de USPS en Estados Unidos- y convertir la información de las direcciones en un formato aceptable y estandarizado.

Una dirección estandarizada debe estar correctamente escrita, formateada, abreviada, geocodificada, así como adjuntada con valores ZIP+4 precisos. Todas las direcciones que no se ajustan a la norma requerida (especialmente las direcciones que se supone que reciben entregas y envíos) deben ser marcadas para que puedan ser transformadas según sea necesario.

Más información: Guía rápida para la normalización y verificación de direcciones.

Enterprise Content Solutions uses DataMatch Enterprise

Enterprise Content Solutions found 24% higher matches than other vendors for inconsistent address records.

Read case study

3. Transformar

En el tercer paso del proceso de normalización de datos, llega finalmente el momento de convertir los valores no conformes en un formato normalizado. Esto puede incluir:

  • Transformación de los tipos de datos de los campos, como la conversión de Número de teléfono de cadena a un tipo de datos entero y la eliminación de cualquier carácter o símbolo presente en los números de teléfono para obtener el número de 8 dígitos.
  • Transformar patrones y formatos, como convertir las fechas presentes en el conjunto de datos al formato MM/DD/AAAA.
  • Transformación de unidades de medida, como la conversión de los precios de los productos a USD.
  • Ampliar los valores abreviados para completar las formas, como sustituir los estados de EE: NY a Nueva York, NJ a Nueva Jersey, etc.
  • Eliminar el ruido presente en los valores de los datos para obtener una información más significativa, como eliminar LLC, Inc. y Corp. de los nombres de las empresas para obtener los nombres reales sin ningún ruido.
  • Reconstruir los valores en un formato estandarizado en caso de que sea necesario asignarlos a una nueva aplicación o a un centro de datos, como un sistema de gestión de datos maestros.

Todas estas transformaciones se pueden hacer manualmente -lo que puede llevar mucho tiempo y ser improductivo- o se pueden utilizar herramientas automatizadas que pueden ayudar a limpiar los datos automatizando las fases de prueba y transformación estándar por usted.

4. Volver a probar la norma

Una vez finalizado el proceso de transformación, es una buena práctica volver a probar el conjunto de datos para detectar errores de estandarización. Los informes previos y posteriores a la estandarización pueden compararse para comprender en qué medida los errores de datos fueron corregidos por los procesos configurados y cómo pueden mejorarse para alcanzar mejores resultados.

Uso de herramientas de estandarización de datos de autoservicio

Hoy en día, los datos se introducen manualmente, así como se capturan y generan automáticamente. En medio del manejo de grandes volúmenes de datos, las organizaciones se encuentran con millones de registros que contienen patrones, tipos de datos y formatos incoherentes. Y cuando quieren utilizar estos datos, los equipos se ven bombardeados con horas de comprobación manual del formato y de corrección de cada pequeño detalle antes de que la información pueda considerarse útil.

Muchas empresas se están dando cuenta de la importancia de proporcionar a sus equipos herramientas de estandarización de datos de autoservicio que también vienen con funciones de limpieza de datos incorporadas. La adopción de este tipo de herramientas puede ayudar a su equipo a ejecutar complejas técnicas de limpieza y normalización de datos en millones de registros en cuestión de minutos.

DataMatch Enterprise es una de esas herramientas que facilita a los equipos de datos la rectificación de los errores de normalización de datos con rapidez y precisión, y les permite centrarse en tareas más importantes. Para saber más sobre cómo puede ayudar DataMatch Enterprise, puede descargar una prueba gratuita hoy mismo o reservar una demostración con un experto.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.