Blog

Limpieza de datos en el almacén de datos: El enfoque automatizado y sin código para mantener su fuente única de verdad

Los datos están en todas partes, y se espera que el volumen total
de datos supera los 44 billones de GB en 2020.
pero rara vez es útil. Sólo 27% de las organizaciones con iniciativas de análisis de datos en marcha informan de algún éxito significativo, mientras que un mero 8% describe sus esfuerzos como «muy exitosos». Estas cifras son bajas no porque las empresas no tengan los datos necesarios, sino porque no tienen datos de calidad con los que trabajar, lo que significa que los datos que tienen son, a todos los efectos, inútiles.

La disponibilidad no es suficiente; hay que hacer que los datos sean útiles.

A la hora de construir su almacén de datos, asegurarse de que tiene datos limpios es fundamental, o se arriesga a enfrentarse a la «
basura que entra, basura que sale
« fenómeno. Pero, ¿qué implica exactamente la limpieza de datos y si realmente la necesita en el diseño de su almacén de datos específico?

Si está integrando datos de una sola fuente, puede encontrar que los registros de origen contienen información que falta, errores ortográficos de cuando se introdujeron los datos originalmente, datos no válidos, etc. Estos problemas son omnipresentes en las bases de datos y a menudo se trasladan a los informes analíticos, a menos que se apliquen técnicas de limpieza y depuración de datos de antemano. El problema se agrava cuando se trata de fuentes de datos dispares para construir repositorios de datos centralizados como un almacén de datos, un sistema de información global o un sistema federado de bases de datos operativas.

Cuando se trata de una sola fuente, hay que lidiar con las inexactitudes de los datos. Con fuentes dispares, también tendrá que lidiar con las diferencias en la forma en que se almacenan y estructuran los datos, así como con los problemas de redundancia de datos entre las múltiples representaciones de datos en cada fuente.

Veamos un ejemplo. Digamos que tiene una entidad llamada «John Smith» con el campo Ciudad rellenado como «Londres» en una base de datos. Otra base de datos podría tener una columna adicional para «País», y cuando las dos bases de datos se fusionen, no tendrá ninguna forma fácil de rellenar el campo Ciudad para el antiguo registro «Juan Pérez». Después de todo, hay cerca de
12 Londres diferentes en el mundo.

Este es un ejemplo; podría haber infinidad de problemas, como nombres concatenados en una base de datos y columnas separadas para FirstName y LastName en otra, o columnas separadas para HouseNumber y StreetName, mientras que otra base de datos tiene una única columna Address.

Una forma de corregir la calidad de los datos es escudriñar y corregir manualmente los errores, pero eso se vuelve rápidamente inviable cuando se trata de grandes datos. La otra vía es utilizar un software de calidad de datos construido específicamente para permitir la limpieza de datos más rápida y precisa para su almacén de datos.

Limpieza de datos en el almacén de datos

Su almacén de datos debe disponer de datos coherentes, precisos y deduplicados para alimentar las aplicaciones de análisis posteriores y otros sistemas de la empresa. En un escenario típico, necesitará un área de preparación separada en la que importará los datos desde la fuente y luego los transformará y los manipulará para estandarizarlos y limpiarlos. Los programas modernos de limpieza de datos admiten el procesamiento en memoria, en el que los datos de origen se importan a la memoria temporal en lugar de a una base de datos física. Puedes probar tus configuraciones de limpieza y deduplicación en la memoria temporal y luego exportarlas una vez que estés satisfecho con los resultados.

Cuando decida un enfoque de limpieza de datos para su almacén de datos, asegúrese de que el método elegido pueda:

  • Gestionar las incoherencias y los errores tanto en las integraciones de una sola fuente como en la integración de datos de múltiples fuentes
  • Minimizar la codificación manual y el esfuerzo de revisión de datos para validar la calidady
  • Utilizarse para fuentes distintas de las definidas inicialmente, de modo que el enfoque siga siendo válido cuando se necesite añadir más fuentes en el almacén de datos más adelante
  • Trabajar con transformaciones de datos basadas en esquemas que se basan en metadatos
  • Identificar los registros vinculados a través de las fuentes con fines de deduplicación y enriquecimiento
  • Proporcionar funciones de orquestación del flujo de trabajo para apoyar y crear una base sólida para las reglas de calidad de datos aplicadas a escala para limpiar los datos de la empresa.

Limpieza de datos en la integración de una sola fuente

Como se ha comentado anteriormente, vamos a segmentar los problemas de limpieza de datos en el almacén de datos en dos grandes categorías de integración de datos debido a los desafíos únicos de limpieza de datos que presenta cada una:

  • Integración de datos de una sola fuente
  • Integración de múltiples fuentes de datos

Para ambas categorías, discutiremos más a fondo los problemas de limpieza de datos a nivel de esquema e instancia. Los problemas relacionados con el esquema se refieren a aquellos en los que los datos pueden limpiarse trabajando en la mejora del diseño del esquema, mientras que los problemas relacionados con la instancia se refieren a errores a un nivel inferior, en el contenido de los campos de la tabla.

Uno de los principales factores para garantizar una mayor calidad de los datos es la disponibilidad de restricciones en sus esquemas de datos. Si ha establecido restricciones en el sistema para controlar los datos permitidos, habrá reducido considerablemente el esfuerzo de limpieza de datos. Cuantas menos restricciones tenga su esquema, mayor será el esfuerzo de limpieza de datos. Una forma muy eficaz de hacerlo es integrando el software de calidad de datos en sus sistemas y aplicaciones y definiendo previamente las reglas de negocio en función de las restricciones que desee aplicar.

La integración basada en la API de Data Ladder garantiza que todos los datos introducidos se cotejen con sus reglas de negocio en tiempo real, independientemente de si los datos se introducen en su CRM o se cargan antes en una base de datos SQL.

He aquí algunos ejemplos que le ayudarán a comprender los problemas de calidad de datos relacionados con los esquemas:

Datos:

Fecha de nacimiento = 20.15.90

El problema:

Valores no permitidos

Razón:

Los valores introducidos para la fecha de nacimiento están fuera del rango permitido porque no puede haber un 15 mes.

Otros ejemplos podrían ser los problemas de integridad referencial, en los que un campo se refiere a un ID de departamento específico pero ese ID de departamento no se ha definido en el sistema. O problemas de singularidad cuando el número de la seguridad social de dos empleados figura como el mismo.

Por otra parte, los problemas relacionados con las instancias pueden deberse a errores ortográficos (statename = Coloradoo), a abreviaturas utilizadas por error durante la introducción de datos (profession = DB prog) y a referencias incorrectas (employee = [name= «John», deptID= «22»], cuando el deptID real de ese empleado era el 12).

Como puede ver, si no se solucionan estos problemas, las consultas que utilicen estos datos devolverán información incorrecta, lo que puede llevar a que las decisiones empresariales se basen en datos erróneos.

Limpieza de datos en la integración de múltiples fuentes

Naturalmente, los problemas de calidad de los datos se multiplican cuando se integran en el almacén de datos datos procedentes de múltiples fuentes. Además de los problemas generales como las faltas de ortografía y las referencias incorrectas en la introducción de datos, debe conciliar los datos en múltiples representaciones y construir registros «maestros» para que su visión de la «Fuente Única de la Verdad» se haga realidad. También hay que resolver los problemas de redundancia de datos, cuando los datos se solapan entre los sistemas.

En lo que respecta al diseño de esquemas, principalmente tendrá que lidiar con los conflictos estructurales y de nomenclatura en diferentes sistemas de origen. Los conflictos estructurales pueden incluir diferentes tipos de datos, restricciones de integridad, estructura de los componentes, etc. En cuanto a las cuestiones relacionadas con las instancias, es probable que las múltiples fuentes hagan que el mismo atributo se represente de forma diferente en los distintos sistemas. Por ejemplo: MaritalStatus podría ser «Married» o «Single» en un sistema, mientras que otro podría tener un registro para RelationshipStatus con atributos totalmente diferentes – pero mostrando el estado civil también.

Duplicación de datos es otra cuestión muy importante, sobre todo cuando se tienen varios registros en varios sistemas que apuntan a la misma entidad. Las empresas tienen millones de registros relacionados con clientes, proveedores y empleados, a menudo en diferentes bases de datos. Estas bases de datos tienen muchos registros duplicados, lo que hace que disminuya la eficacia operativa y que falte información. Los registros múltiples significan que los detalles del mismo cliente/entidad están repartidos en varios registros. Eliminar los duplicados y fusionar los registros
aumenta la eficiencia de la base de datos
al tiempo que crea una única fuente de verdad.

Tabla de clientes (sistema fuente ABC):

CID Nombre Calle Ciudad Sexo
11 Kristen Smith 2 Hurley Pl South Fork, MN 48503 0
24 Christian Smith Calle Hurley 2 S Fork MN 1

Tabla de clientes (sistema de origen XYZ):

Cno Apellido Nombre Género Dirección Teléfono/Fax
11 Smith Christoph M 23 Harley St, Chicago IL, 60633-2394 333-222-6542 / 333-222-6599
493 Smith Kris L. F 2 Hurley Place, South Fork MN, 48503-5998 444-555-6666

Tabla de clientes (integrada tras la limpieza de datos para el almacén de datos de destino):

No LName FName Género Calle Ciudad Estado ZIP Teléfono Fax CID Cno
1 Smith Kristen L. F 2 Hurley Place Horquilla Sur MN 48503-5998 444-555-6666 11 493
2 Smith Christian M 2 Hurley Place Horquilla Sur MN 48503-5998 24
3 Smith Christoph M 23 Harley Street Chicago IL 60633-2394 333-222-6542 333-222-6599 11

La integración de datos en su almacén de datos gira en torno a dos procesos importantes:

  • Reconocer si la misma entidad existe en ambas fuentes
  • Combinación de datos de entidades para obtener una vista consolidada de una tabla de entidades

Para obtener una vista limpia y completa, hay que fusionar los datos relacionados y purgar los duplicados redundantes, como se muestra en el ejemplo anterior. El proceso se conoce comúnmente como ‘
fusionar purgar
Proceso que consiste en combinar datos de dos o más fuentes, identificando y/o combinando los duplicados, y eliminando (purgando) los registros no deseados.

Para utilizar su almacén de datos en todo su potencial, la purga de fusiones es fundamental. Los datos pueden ser analizados para encontrar ideas, aumentar la eficiencia y descubrir problemas cuando se diseña el almacén de datos para que sea la «única fuente de verdad» en toda la empresa. La purga de fusión permite elegir cómo se deben fusionar y purgar los datos. Elija las reglas de supervivencia de datos que mejor se adapten a su propósito y nuestra herramienta de purga de fusión revisará millones de registros, combinándolos en registros dorados completos. Sus datos originales se conservan en su forma original, y se crea un nuevo conjunto de datos que contiene toda la información.

Construya capacidades analíticas fiables y precisas en su almacén de datos

El software de calidad de datos de Data Ladder ha sido calificado como la plataforma más rápida y precisa para la vinculación de registros en múltiples estudios independientes. Aproveche nuestras potentes funciones de cotejo propias para detectar y purgar duplicados, o fusionar y sobrevivir a los datos para construir un ‘una única fuente de verdad‘ utilizando técnicas de concordancia difusa, análisis sintáctico inteligente y reconocimiento de patrones de primera clase.

«Mi parte favorita de DataMatch es lo fácil y flexible que es su uso. Puedo utilizar datos de prácticamente cualquier fuente de datos, incluyendo conexiones ODBC, archivos CSV y archivos JSON. Hace un gran trabajo con la limpieza de datos haciendo que el proceso de cotejo sea aún más potente.»

Nick Corder, arquitecto de plataformas

La velocidad, la precisión y el bajo coste inigualables de DataMatch Enterprise hacen que cotejar y vincular registros de todos sus repositorios de datos sea un juego de niños, gracias a la gran variedad de integraciones que ofrece DataMatch Enterprise desde el principio.

Mejore su estrategia de limpieza en el almacén de datos aprovechando nuestra integración nativa con las numerosas fuentes de datos y las funciones avanzadas de vinculación de registros para encontrar coincidencias de datos en todos los repositorios admitidos, independientemente de si sus datos viven en plataformas de medios sociales y sistemas heredados o en bases de datos tradicionales y archivos planos e incluso en lagos de Big Data. Data Ladder se integra con prácticamente todos los sistemas modernos para ayudarle a sacar el máximo partido a su almacén de datos.


Póngase en contacto
con nuestros arquitectos de soluciones para elaborar un plan para depurar, limpiar y, finalmente, validar los datos mediante técnicas de automatización avanzadas mientras construye su almacén de datos y se asegura de que los usuarios de su empresa obtengan análisis precisos.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.