Blog

Fusión de datos de múltiples fuentes: retos y soluciones

Fusión de datos de múltiples fuentes

La fusión de datos es un proceso en el que se unifican los datos de múltiples fuentes para representar un único punto de referencia o un único punto de verdad. Aunque es un objetivo aparentemente sencillo, la fusión de datos es un proceso tan complicado como desenredar un ovillo de hilo anudado. ¿La razón? Una empresa media tiene desplegadas unas 464 aplicaciones personalizadas para gestionar sus procesos de negocio.

Además, la mayoría de las bases de datos tienen problemas de duplicación, incoherencias e inexactitud. El nombre y la dirección de un cliente pueden estar escritos de 10 maneras diferentes por 10 personas distintas en 10 depósitos de datos diferentes. Además, habrá 10 fuentes diferentes de las que se obtienen estos datos: sitios web, formularios de páginas de aterrizaje, alcances publicitarios en las redes sociales, registros de ventas, registros de facturación, registros de marketing, registros de puntos de compra y otras áreas en las que el cliente puede haber interactuado con la empresa.

Pero cuando se trata de obtener información útil de los datos recogidos, es importante combinar todas estas fuentes de datos y obtener un único punto de referencia.

En este artículo, trataremos temas esenciales como:

  • Escenarios en los que se hace necesaria la fusión de datos
  • Cómo fusionar datos de múltiples fuentes
  • Desafíos encontrados durante el proceso de fusión de datos
  • Mejores prácticas para permitir una fusión de datos sin problemas

Empecemos.

Escenarios en los que se hace necesaria la fusión de datos

Vamos a detallar la importancia de fusionar datos de múltiples fuentes en tres escenarios diferentes:

1. Iniciativa de transformación digital

La fusión de datos es necesaria al trasladar archivos dispares (como archivos de texto, CSV, hojas de Excel, bases de datos SQL u otros formatos de archivo) a un sistema completo de alojamiento y procesamiento de datos, y permitir flujos de trabajo automatizados, mejorar la capacidad de búsqueda, controlar el acceso a la información, etc.

2. Impulsar la inteligencia empresarial

La fusión de datos suele producirse cuando se combinan datos que residen en diferentes aplicaciones (como CRM, herramientas de automatización de marketing, herramientas de análisis de sitios web, etc.), y se fusionan para preparar el análisis y el procesamiento posterior de los datos, y para extraer información útil para futuras predicciones.

3. Integración de datos tras las fusiones y adquisiciones

Las fusiones y adquisiciones incluyen partes móviles complejas, y uno de los pasos más complicados es combinar los datos de diferentes empresas en un solo repositorio, y luego hacer que los procesos sean compatibles con los proyectos, estructuras y flujos de trabajo recién fusionados.

Cómo fusionar datos de múltiples fuentes

La fusión de datos debe tratarse como un proceso estrechamente supervisado y controlado para evitar la pérdida de datos o causar daños irreversibles a las estructuras de datos individuales implicadas. A continuación hemos destacado las tres etapas de la fusión de datos:

Proceso de pre-fusión

1. Perfiles de datos

Sin perfilar las fuentes de datos individuales, es difícil entender los datos con los que se está tratando o el impacto de las decisiones durante el proceso de fusión. Un proceso de perfilado de datos permite conocer dos partes importantes de sus datos:

a. Análisis de atributos

Identifica y destaca la lista de atributos (columnas de datos) que contiene cada fuente de datos. Esto le ayuda a entender cómo sus datos fusionados podrían escalar verticalmente, dependiendo de qué atributos pueden ser fusionados y cuáles necesitan ser anexados ya que representan información separada.

b. Análisis estadístico de cada atributo

Analiza los valores de los datos contenidos en cada columna de una fuente para evaluar la distribución, la integridad y la unicidad de los atributos. Además, un perfil de datos también valida los valores con respecto a cualquier patrón definido y destaca los valores no válidos.

Precisamente, los perfiles de datos calculan y presentan el estado actual de sus fuentes de datos, además de resaltar las posibles oportunidades de limpieza y otras consideraciones antes de que pueda comenzar el proceso de fusión.

2. Depuración, normalización y transformación de datos

No es práctico fusionar fuentes de datos que contengan valores incompletos, inexactos o no válidos. Los atributos de datos en dos fuentes diferentes pueden representar conceptualmente la misma información, pero el formato de sus valores de datos puede ser completamente diferente. Estas diferencias estructurales y léxicas en los datos pueden causar pérdidas de datos y errores no corregibles si los datos se fusionan sin ser limpiados y normalizados. Utilizando los perfiles de datos generados como punto de referencia, se toman una serie de medidas para normalizar la calidad de los datos, algunas de las cuales se destacan a continuación:

  • Sustitución de caracteres no válidos por valores correctos (por ejemplo, sustitución de caracteres no imprimibles, valores nulos, espacios iniciales o finales, etc.)
  • Análisis de campos de datos largos en componentes más pequeños para estandarizar los datos en múltiples fuentes (por ejemplo, análisis del campo Dirección en Número de Calle, Nombre de Calle, Ciudad, Código Postal y País). El análisis de los campos de datos de esta manera garantiza que la exactitud de los datos se mantenga después de la fusión de los mismos.
  • Definir las restricciones de integridad, las validaciones de patrones y los tipos de datos permitidos para todos los atributos (por ejemplo, el número máximo/mínimo de caracteres permitidos para el campo Número , que sólo puede contener números o guiones en un patrón como NNN-NNN-NNN).
3. Filtrado de datos

Es posible que quiera fusionar sólo subconjuntos de sus fuentes de datos en lugar de realizar una fusión completa. Este corte horizontal o vertical de los datos suele ser necesario cuando:

  • Desea fusionar los datos que caen en un determinado período de tiempo (corte horizontal).
  • Desea fusionar datos para su análisis y sólo un subconjunto de filas cumple los criterios condicionales (corte horizontal).
  • Sus datos contienen una serie de atributos que no contienen ninguna información valiosa (corte vertical).

Si desea fusionar todos los datos sin dejar nada fuera, puede pasar al siguiente paso.

4. Deduplicación de datos

En ocasiones, las organizaciones tienden a almacenar la información de una misma entidad en múltiples fuentes. Cada uno de estos registros representa algún dato valioso sobre esa entidad. La fusión de datos resulta difícil si los conjuntos de datos contienen duplicados. Antes de iniciar el proceso de fusión, es crucial realizar algoritmos adecuados de cotejo de datos para identificar los duplicados, aplicar reglas condicionales para eliminar los duplicados y lograr la unicidad de los registros en todas las fuentes.

Proceso de fusión: Agregación/integración de datos

Los datos ya están listos para entrar en el proceso de fusión. Dependiendo de la finalidad, los datos pueden fusionarse de diferentes maneras:

  • Añadir filas
  • Añadir columnas
  • Añadir filas y columnas a la vez
  • Fusión condicional

Veamos cada uno de estos escenarios con un poco más de detalle.

1. Anexar filas

Añadir filas es útil cuando se desea reunir y combinar registros capturados de diferentes fuentes en un solo lugar.

Un ejemplo de anexión de filas es cuando se ha reunido la información de los clientes a través de varios sistemas de gestión de contactos, pero ahora se necesita reunir todos los registros en un solo lugar.

Consideraciones

  • Todas las fuentes de datos que se combinen deben tener la misma estructura (columnas).
  • Los tipos de datos, las restricciones de integridad y las validaciones de patrones de las columnas correspondientes deben ser los mismos para evitar errores de formato no válidos.
  • En presencia de identificadores únicos, asegúrese de que diferentes fuentes no contengan los mismos identificadores únicos, de lo contrario se producirán errores durante el proceso de fusión.
  • Si los datos de una entidad abarcan múltiples registros que residen en fuentes dispares, realice la coincidencia y deduplicación de datos antes del proceso de fusión.
2. Anexar columnas

La adición de columnas es útil cuando se desea añadir más dimensiones a los registros existentes.

Un ejemplo de anexión de columnas es cuando tiene la información de contacto en línea de su cliente en un conjunto de datos, y su información de contacto físico o residencial en otro, y desea combinar ambos conjuntos de datos en uno solo.

Consideraciones

  • Todas las columnas de fuentes dispares deben ser únicas (no duplicadas).
  • Cada registro debe ser único e identificable en todos los conjuntos de datos para que los registros con el mismo identificador puedan fusionarse.
  • Si un conjunto de datos no contiene datos para la columna de fusión, puede especificar valores nulos para todos los registros de ese conjunto de datos.
  • Si varios conjuntos de datos contienen la misma información de dimensión, también puede fusionar las dimensiones en un solo campo (separadas por una coma, etc.) en caso de que no quiera perder datos.
3. Fusión condicional

La fusión condicional es útil cuando se tienen conjuntos de datos incompletos que deben ser fusionados. En este tipo de fusión, se buscan los valores de un conjunto de datos y se rellenan adecuadamente en los otros conjuntos de datos con el registro/atributo correcto.

Un ejemplo de fusión condicional es cuando se tiene una lista de productos en un conjunto de datos, pero el promedio de ventas por mes de cada uno de ellos se captura en otro conjunto de datos. Ahora, para fusionar los datos, es posible que tenga que buscar las ventas de cada producto del segundo y anexar estos datos contra el registro de productos correcto en el primer conjunto de datos. Esto se suele hacer cuando no se dispone de identificadores únicos en un conjunto de datos, por lo que hay que comparar condicionalmente en función de otra columna y fusionar en consecuencia.

Consideraciones

  • El conjunto de datos en el que se buscan los valores debe contener todos los registros únicos (por ejemplo, un número medio de ventas para cada producto).
  • El conjunto de datos al que se añaden los datos puede no ser único (por ejemplo, los productos se enumeran por ubicación y, por tanto, el mismo producto vendido en varias ubicaciones puede aparecer más de una vez).

Nota adicional

El tipo de fusión que utilice depende en gran medida de su caso de uso específico. Si sus conjuntos de datos no contienen muchos valores nulos y son relativamente completos, añadir filas o columnas, o ambas cosas, puede ajustarse a sus necesidades. Sin embargo, cuando encuentre lagunas en sus conjuntos de datos, es posible que tenga que buscar y rellenar esos valores primero. A menudo, las organizaciones utilizan todas las técnicas de fusión de datos para reunirlos. Por ejemplo, puede realizar primero la fusión condicional y luego completar el proceso de fusión añadiendo también filas y columnas.

Proceso de post-fusión

1. Perfiles de la fuente fusionada

Una vez completado todo el proceso de fusión, es crucial realizar una comprobación final del perfil de la fuente fusionada, al igual que la realizada al principio del proceso para las fuentes individuales. Esto mostrará cualquier error encontrado durante la fusión, y resaltará si alguna información queda incompleta, inexacta, o contiene valores inválidos, etc.

Desafíos encontrados durante el proceso de fusión de datos

1. Heterogeneidad de los datos

Uno de los mayores retos que se plantean al fusionar datos es la heterogeneidad de los mismos, es decir, las diferencias estructurales y léxicas presentes en los conjuntos de datos que se van a fusionar.

a. Heterogeneidad estructural

Cuando estos conjuntos de datos no contienen el mismo número y tipo de columnas/atributos, se habla de heterogeneidad estructural. Por ejemplo, una base de datos podría almacenar el nombre de un contacto como Nombre de Contacto, mientras que en una segunda base de datos, se almacena en múltiples columnas como, Saludo, Nombre, Segundo Nombre y, Apellido.

b. Heterogeneidad léxica

La heterogeneidad léxica se produce cuando los campos de diferentes bases de datos son estructuralmente iguales, pero representan la misma información de forma sintónica diferente. Por ejemplo, dos o más bases de datos pueden tener el mismo campo Dirección , pero una puede tener un valor de dirección 32 E St. 4, mientras que la otra puede tener 32 East, 4 th Street.

Para superar este reto, las columnas deben ser analizadas y fusionadas para conseguir la misma estructura en todos los conjuntos de datos. Además, los valores de las columnas deben transformarse para seguir la misma sintaxis.

2. Escalabilidad

Normalmente, las iniciativas de fusión de datos se planifican y ejecutan teniendo en cuenta un número determinado de fuentes y tipos, y no tienen espacio para la escalabilidad. Se trata de un gran reto, ya que las necesidades de las organizaciones se transforman con el tiempo y requieren un sistema que pueda integrar más fuentes de datos con estructuras y mecanismos de almacenamiento diferentes.

Para superar este reto, es importante implementar y utilizar un diseño de integración escalable durante el proceso de fusión, en lugar de codificar la integración sólo para ciertas fuentes. Un sistema de integración de datos reutilizable tiene en cuenta las posibilidades actuales y futuras y construye una arquitectura escalable que extrae datos de varias fuentes y admite diferentes formatos de datos, como API, bases de datos SQL, archivos de texto, almacenes ETL, etc.

3. Duplicación

Cualquiera que sea la técnica de fusión de datos que esté planeando implementar, la duplicación de datos es un gran desafío que debe ser solucionado. La duplicación puede existir en su base de datos en diferentes formas, algunas comunes incluyen:

  • Múltiples registros que representan a la misma entidad (que pueden tener o no un identificador único).
  • Múltiples atributos que almacenan la misma información sobre una entidad.
  • Registros o atributos duplicados almacenados dentro del mismo conjunto de datos, o que abarcan varios conjuntos de datos.

Este problema de duplicación puede resolverse:

  • Selección y configuración de algoritmos de concordancia de datos adecuados que identifiquen los registros que representan la misma entidad. En ausencia de identificadores únicos, se debe utilizar una combinación de algoritmos avanzados de coincidencia difusa para encontrar coincidencias precisas.
  • Definir un conjunto de reglas condicionales que evalúen de forma inteligente columnas iguales o similares y sugieran cuáles de estos atributos contienen valores más completos, precisos y válidos.

4. Largo proceso de fusión

Los procesos de integración de datos suelen durar más de lo previsto. La razón más común es la mala planificación y las expectativas poco realistas fijadas al principio. Es más fácil empezar algo desde cero que corregir lo que ya se ha implantado y ha estado en vigor durante décadas.

Es fundamental tener en cuenta la cantidad de datos que se manejan y evaluar los perfiles de datos de todas las fuentes antes de poder elaborar un plan de aplicación realista.

Otra razón que explica la larga duración de los proyectos de integración son las adiciones o cambios de última hora. El equipo debe dedicar algún tiempo al proceso de preevaluación y recopilar información de todas las partes implicadas, como los usuarios de la empresa (que introducen/captan los datos), los administradores (que gestionan los datos) y los analistas de datos (que dan sentido a los datos).

Mejores prácticas para permitir una fusión de datos sin problemas

1. Saber qué integrar

Antes de iniciar el proceso de integración de datos, dedique algún tiempo a evaluar las fuentes de datos implicadas. Esto ayuda a identificar exactamente lo que hay que combinar: las fuentes y los atributos que contienen. Puede ser que los registros antiguos estén obsoletos y no deban tenerse en cuenta para el proceso de integración. Saber exactamente lo que hay que combinar aumentará la velocidad y la precisión del proceso.

2. Visualizar los datos

Siempre es mejor entender los datos que se manejan, y la forma más rápida de hacerlo es visualizarlos. No sólo es más fácil de evaluar, sino que le ofrece una visión completa de los valores atípicos o las invalidaciones que puedan residir en su conjunto de datos. Los histogramas estadísticos y los gráficos de barras que muestran la integridad de los atributos pueden ser muy útiles.

3. Pruebe las herramientas automatizadas de autoservicio

Llevar a cabo manualmente todo el proceso de integración y agregación de datos parece un proceso que requiere muchos recursos y costes. Pruebe las herramientas de integración de datos automatizadas y de autoservicio que ofrecen una solución integral para la elaboración de perfiles de datos, la limpieza, la correspondencia, la integración y la carga de datos de forma rápida, precisa y exhaustiva.

Data Ladder’s DataMatch Enterprise es una de estas herramientas que soporta sin problemas una gran variedad de tipos y formatos de datos, incluyendo archivos locales (archivos de texto, CSV, hojas de Excel), bases de datos (SQL Server, Oracle, Teradata), almacenes en la nube (CRMs como Salesforce), APIs, y otras bases de datos utilizando la conexión ODBC, así como la construcción de conectores nativos basados en las necesidades específicas del usuario.

4. Decidir dónde alojar los datos fusionados

Es posible que desee fusionar los datos de todas las fuentes en una sola fuente de destino, o cargar el conjunto de datos fusionados en una fuente completamente nueva. En función de sus necesidades, asegúrese de que ha probado, diseñado y estructurado el origen de destino en consecuencia, para que pueda soportar los datos fusionados entrantes de forma eficiente.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.