Blog

Procesamiento por lotes frente a la validación de la calidad de los datos en tiempo real

Una encuesta reciente muestra que el 24% de los equipos de datos utilizan herramientas para encontrar problemas de calidad de datos, pero normalmente se quedan sin resolver. Esto significa que la mayoría de las herramientas de calidad de datos tienen la capacidad de detectar problemas y emitir alertas en caso de que la calidad de los datos se deteriore por debajo de un umbral aceptable. Pero aún así, dejan de lado un aspecto importante: la automatización de la ejecución de los procesos de calidad de datos (ya sea en función del tiempo o de determinados eventos) y la resolución de los problemas de forma automática. La falta de esta estrategia obliga a la intervención humana, lo que significa que alguien tiene que activar, supervisar y finalizar los procesos de calidad de datos en la herramienta para solucionar estos problemas.

Esto supone una gran sobrecarga, especialmente en las organizaciones que producen enormes cantidades de datos cada día. Por esta razón, las empresas tienen que contratar más personal y gastar más recursos que sean los únicos responsables de ejecutar las comprobaciones de calidad de datos configuradas en los nuevos datos que llegan regularmente. Pero algunas organizaciones sí consideran la posibilidad de automatizar la verificación de la calidad de los datos a gran escala para el procesamiento por lotes en determinados momentos del día o de la semana.

En este blog, vamos a examinar la validación programada de la calidad de los datos, y también veremos cómo se compara con la validación instantánea de la calidad de los datos.

Validación de la calidad de los datos

Antes de entrar en las dos formas diferentes de gestionar la validación de la calidad de los datos, es importante revisar lo que abarca realmente la validación de la calidad de los datos.

La mayoría de los datos producidos en las organizaciones hoy en día presentan diversas formas de errores de calidad. Por esta razón, los responsables de los datos diseñan marcos de gestión de la calidad de los datos o planes de mejora que evalúan, identifican, solucionan y supervisan los problemas de calidad de los datos. En este marco, se configura una lista de procesos de calidad de datos que se ejecutan sobre los nuevos datos para garantizar que los errores que puedan surgir se solucionen a tiempo. Estos procesos suelen incluir:

  1. Recogida de información
    1. Obtención de nuevos datos de fuentes dispares.
  2. Procesamiento
    1. Perfilar los datos para resaltar los errores,
    2. Ejecución de técnicas deanálisis, limpieza y normalización de datos para lograr una visión coherente,
    3. Coincidencia de registros que pertenecen a la misma entidad (exactamente en un identificador único o coincidencia difusa en una combinación de campos),
    4. Fusionar los registros para eliminar la información innecesaria y conseguir una única fuente de verdad.
  3. Carga de la salida
    1. Almacenamiento de la única fuente de verdad en la fuente de destino.

¿Cuándo validar la calidad de los datos?

La ejecución de estos procesos sobre los nuevos datos puede producirse en dos momentos: se puede programar la validación de la calidad de los datos para que se produzca en un momento posterior del día o de la semana (programada), o validarla inmediatamente en cada flujo de datos que se produzca antes de que se almacene en la base de datos (en tiempo real).

Veamos ambas cosas con más detalle.

Programación de la validación de la calidad de los datos para el tratamiento por lotes

El procesamiento por lotes consiste en ejecutar repetidamente el mismo conjunto de operaciones sobre un gran volumen de datos en un momento programado.

El concepto de procesamiento por lotes es bastante común cuando se trata de procesamiento de datos. Dado que el volumen de datos aumenta exponencialmente, la validación de los próximos flujos de datos en tiempo real puede ser muy difícil y limitante. Por ello, el procesamiento por lotes de grandes cantidades de datos en un momento determinado del día o de la semana puede ser muy eficaz.

A continuación se detallan algunos aspectos a tener en cuenta a la hora de programar las tareas de validación de la calidad de los datos mediante la gestión automatizada de la calidad de los datos:

  1. ¿Qué tareas ejecutar?
  2. ¿En qué orden deben ejecutarse las tareas?
  3. ¿Cuáles son las variables configuradas y las definiciones de las tareas que se van a ejecutar (si procede)?
  4. ¿Cuáles son las ubicaciones de las entradas y salidas?
  5. ¿Cuándo activar la ejecución de las tareas?

Escenario: Programación de la validación de la calidad de los datos de los clientes

Dependiendo de su marco de gestión de la calidad de los datos, puede configurar múltiples tareas en cualquier conjunto de datos. Por ejemplo, es probable que capture y almacene la información de los clientes en varios lugares de su organización; una herramienta de análisis rastrea la actividad del sitio web, una herramienta de automatización del marketing guarda la actividad del correo electrónico, un software de cuentas almacena las transacciones de facturación, un CRM mantiene la información de contacto de los clientes, etc. Pero para que estos datos sean utilizables, probablemente necesites que lo sean:

  1. Sin errores de calidad de los datos, como formato, faltas de ortografía, incompletos, etc.
  2. Agregados para representar una única fuente de verdad sobre cada cliente.

Una forma eficiente de manejar este escenario es elegir un enfoque automatizado en el que un servicio de fondo realice las tareas de validación de la calidad de los datos (mencionadas anteriormente) en momentos programados. Esto garantizará que los datos de los clientes se obtengan, se procesen y se carguen en una fuente de destino al final de cada día (por ejemplo), y se reduzca la carga manual de la gestión de estos procesos.

Ventajas e inconvenientes de programar la validación de la calidad de los datos

He aquí algunas de las ventajas y dificultades de programar la validación de la calidad de los datos:

Pros

  1. Una de las mayores ventajas del procesamiento de datos por lotes es la utilización eficaz de los recursos. No sólo se reduce y se elimina la intervención humana de la ejecución, sino que también se garantiza que otros recursos (como la potencia de cálculo del escritorio o del servidor) se utilicen en los mejores momentos, cuando están ociosos y disponibles.
  2. Otra ventaja es que reduce la probabilidad de que se produzcan errores humanos y produce resultados coherentes a intervalos de tiempo regulares. Las mismas tareas, si son manejadas por individuos, son propensas a retrasarse o ser incoherentes debido al variado juicio humano.
  3. El procesamiento programado también mejora la eficiencia y la productividad de la empresa, ya que los resultados están listos a tiempo con una mínima participación y gastos generales.
  4. Programar las tareas de calidad de los datos en bloque de una sola vez es más sencillo y menos complejo que diseñar una arquitectura de validación en tiempo real.
  5. Por lo general, no se necesita un hardware especializado para ejecutar los servicios de fondo programados, ya que no hay una necesidad urgente de procesamiento rápido y generación de resultados.

Cons

  1. Uno de los mayores contras de retrasar la validación de la calidad de los datos es el tiempo de inactividad cuando los datos quedan invalidados, y están a la espera de ser procesados a la hora programada.
  2. Las tareas se programan para que se ejecuten durante las horas de inactividad, y si el servicio de programación no se activa (debido a cualquier error o fallo), los datos pueden quedar sin procesar hasta que un humano interactúe y los active a la fuerza.
  3. Es posible que se requieran algunos conocimientos técnicos adicionales para diseñar los trabajos programados para un uso adecuado del hardware y de la energía, así como para emitir alertas de finalización de tareas y notificaciones de errores.

Implementación de la validación de la calidad de los datos en tiempo real

La validación de la calidad de los datos en tiempo real consiste en verificar la calidad de los datos antes de almacenarlos en la base de datos.

Para mantener una visión limpia, estandarizada y deduplicada de los datos en todo momento, los datos pueden ser validados antes de ser consignados en la base de datos. Esto puede ser posible de dos maneras:

  1. Implementar controles de validación de datos en todas las herramientas de entrada de datos; por ejemplo, formularios de sitios web, CRM, software de contabilidad, etc.
  2. Desplegar un cortafuegos o motor central de calidad de datos que procese cada flujo de datos entrante y lo valide antes de almacenarlo en la base de datos.

Aunque el primer caso es comparativamente menos complejo desde el punto de vista técnico, podría ser un reto sincronizar las comprobaciones de calidad de los datos y las fijaciones entre aplicaciones dispares. Por esta razón, muchas organizaciones optan por la segunda opción, en la que implementan un cortafuegos de calidad de datos dentro de su arquitectura de gestión de datos.

Algunos diseñan un cortafuegos de calidad de datos personalizado para sus requisitos específicos de calidad de datos, mientras que otros utilizan servicios de API de terceros proveedores y los integran en su arquitectura de datos. En ambos casos se consigue el mismo resultado: se puede validar la calidad de los datos en el momento de su introducción o antes de almacenarlos en la base de datos.

Escenario: Validación de la calidad de los datos de los clientes en tiempo real

En el mismo ejemplo mencionado anteriormente, puede optar por realizar comprobaciones de la calidad de los datos de los próximos clientes en tiempo real. Cuando se realiza un cambio en cualquier registro de cliente o cuando se crea un nuevo registro de cliente en cualquier aplicación conectada, la actualización se envía primero al motor central de calidad de datos. Aquí, el cambio se verifica con respecto a la definición de calidad de datos configurada, como por ejemplo, asegurándose de que los campos obligatorios no estén en blanco, que los valores sigan el formato y el patrón estándar, que un nuevo registro de cliente no coincida posiblemente con un registro de cliente existente, etc.

Si se encuentran errores de calidad de datos, se ejecuta una lista de reglas de transformación para limpiar los datos. En algunos casos, puede ser necesario que un administrador de la calidad de los datos intervenga y tome decisiones cuando los valores de los datos son ambiguos y no pueden ser bien procesados por los algoritmos configurados. Por ejemplo, podría haber un 60% de posibilidades de que un nuevo registro de cliente sea un duplicado, y alguien tendría que verificar y resolver manualmente el problema.

Ventajas e inconvenientes de la validación instantánea de la calidad de los datos

He aquí algunas de las ventajas y los retos de la validación instantánea de la calidad de los datos:

Pros

  1. Una de las mayores ventajas de la validación de la calidad de los datos en tiempo real es que garantiza un estado fiable de los datos en la mayoría de las ocasiones, ya que valida y corrige la calidad de los datos al instante después de cada actualización.
  2. Dado que el cortafuegos de calidad de datos se implementa de forma centralizada, puede conseguir una calidad de datos coherente en todos los almacenes de datos de la empresa.
  3. Puede ayudarle a implementar flujos de trabajo personalizados sobre su arquitectura de gestión de datos existente. Por ejemplo, puede dirigir ciertos datos a lugares específicos después de la limpieza o lanzar alertas en caso de que algo necesite atención urgente.
  4. Un cortafuegos de calidad de datos que implemente un mecanismo frontal para la revisión de datos por parte de los administradores de datos también puede ayudar a anular los resultados por defecto en casos especiales, como la anulación de decisiones incorrectas tomadas por los algoritmos de coincidencia. Por otro lado, el procesamiento por lotes eliminaba por completo la intervención humana, lo que hacía que algunos falsos negativos o positivos cayeran en su conjunto de datos.
  5. Con este enfoque, puede habilitar el procesamiento multihilo, lo que significa que el cortafuegos puede servir varias solicitudes al mismo tiempo, procedentes de varias aplicaciones.

Cons

  1. El despliegue de un motor central de calidad de datos es comparativamente más complejo desde el punto de vista técnico. Y como todos los datos pasan por esta ruta, tiene un alto impacto y no permite ningún hueco para los errores.
  2. Este enfoque puede requerir un hardware especializado para el cálculo rápido e instantáneo, y la generación de resultados precisos.
  3. La aplicación de la validación de la calidad de los datos en tiempo real puede requerir más conocimientos técnicos y de dominio, así como la reconsideración de toda la arquitectura de gestión de datos. Esto probablemente hace que la aplicación sea más arriesgada y compleja.

¿Qué elegir: validación de la calidad de los datos programada o en tiempo real?

Como siempre, la respuesta corta a esta pregunta es que: depende.

Algunos de estos factores dependientes son:

  1. Sus normas y requisitos de calidad de datos,
  2. La frecuencia con la que sus operaciones comerciales consultan datos nuevos o actualizados,
  3. La cantidad de esfuerzo, tiempo y coste que está dispuesto a invertir,
  4. La magnitud del impacto que su empresa puede soportar durante la aplicación de uno u otro enfoque.

Lo mejor de ambos mundos

A veces, las organizaciones utilizan ambos enfoques al mismo tiempo. Esto puede ocurrir de tres maneras:

  1. O bien los datos se dividen entre los dos enfoques (una parte se procesa con el servicio programado mientras que la otra se procesa en tiempo real),
  2. Cada enfoque procesa un conjunto diferente de funciones de calidad de datos sobre los mismos datos (la limpieza y normalización de datos se ejecuta en tiempo real y las técnicas complejas, como la coincidencia difusa, la deduplicación de datos o la purga de fusión, se ejecutan por lotes en el momento programado), o
  3. Los escenarios de bajo impacto (en los que la precisión es más importante que la velocidad) se manejan con un procesamiento programado y los escenarios de alto impacto (en los que la velocidad es más importante que la precisión) pueden manejarse con una validación en tiempo real.

Conclusión:

Debido a la compleja y delicada naturaleza de los errores en la calidad de los datos y sus posibles correcciones, se ha hecho imperativo adoptar enfoques creativos. Esto garantizará que los errores de calidad de los datos sean mínimos en el sistema y que la mayoría de los datos se mantengan limpios y estandarizados.

Para ejecutar enfoques creativos, se necesitan herramientas y tecnologías creativas que puedan apoyar la ejecución de sus planes. Pero la mayoría de las veces, es menos probable que una herramienta o un proveedor puedan satisfacer sus necesidades de calidad de datos (en todas sus formas).

DataMatch Enterprise es una herramienta excepcional que ofrece sus funciones de calidad de datos, líderes en el sector y propias, en todas sus formas:

  1. Una aplicación de escritorio con una interfaz de usuario intuitiva,
  2. Un servicio de programación que procesa los archivos de datos en masa a la hora programada, y
  3. Un cortafuegos o API de calidad de datos que expone todas las funciones para el procesamiento en tiempo real.

Para saber más sobre cómo puede ayudar DataMatch Enterprise, puede descargar una prueba gratuita hoy mismo o reservar una demostración con un experto.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.