Blog

API de calidad de datos: Funciones, arquitectura y beneficios

Al encuestar a 1.900 equipos de datos, más del 60% citó el exceso de fuentes de datos y la incoherencia de los mismos como el mayor problema de calidad de los datos que encuentran. Pero cuando se enfrentan a la tarea de arreglar la calidad de los datos, los líderes de datos a menudo se encuentran en un punto difícil, ya que hay que tomar decisiones cruciales. Una de las decisiones más importantes que hay que tomar es: ¿en qué momento del ciclo de vida de los datos debemos probar y arreglar la calidad de los mismos?

Para responder a esta pregunta, hay que tener en cuenta algunos aspectos. Dado que muchas empresas producen regularmente enormes cantidades de datos y los utilizan sistemáticamente en toda la organización, un enfoque reactivo -en el que los datos se limpian después de ser almacenados- puede no ser la mejor opción, ya que afecta a la fiabilidad y disponibilidad de los datos. El despliegue de un cortafuegos central de calidad de datos -en el que los datos se comprueban y tratan antes de ser almacenados en la base de datos- podría ser una mejor opción en estos casos.

Para saber más sobre las diferencias entre ambos enfoques, consulte nuestro último blog: Procesamiento por lotes versus validación de la calidad de los datos en tiempo real.

En la mayoría de los enfoques reactivos, los administradores de datos u otros miembros del equipo de calidad de datos utilizan una interfaz de software para probar y corregir la calidad de los datos. Pero en un enfoque proactivo, esta tarea se suele gestionar a través de una API. En este blog, veremos diferentes aspectos a tener en cuenta a la hora de desplegar un cortafuegos de calidad de datos utilizando dichas APIs. Empecemos.

¿Qué es una API de calidad de datos?

Sencillamente, una API (Application Programming Interface) es un intermediario de software que permite que las aplicaciones se comuniquen entre sí. Una API reside entre dos aplicaciones de software y maneja las solicitudes/respuestas que se transmiten. Normalmente, cuando se quiere integrar o conectar dos sistemas, se hace con la ayuda de una API.

Del mismo modo, una API de calidad de datos significa:

Un intermediario de software que atiende solicitudes/respuestas para varias funciones de calidad de datos.

Implementación arquitectónica de una API de calidad de datos

Una API de calidad de datos recibe a menudo diferentes nombres. Por ejemplo, cortafuegos de calidad de datos, validación de calidad de datos en tiempo real, motor central de calidad de datos, etc. Estos nombres se dan ya que la API funciona entre la aplicación que captura los datos y la base de datos que los almacena.

Las APIs de calidad de datos (al igual que cualquier otra API) están construidas sobre una arquitectura basada en eventos. Se activan cuando se produce un evento. Así, cada vez que llegan nuevos datos a través de una aplicación conectada o se actualizan los datos existentes, pasan primero por la API (donde se verifica la calidad de los datos) y luego se dirigen a la base de datos de origen. Esto hace que la API actúe como una pasarela entre una aplicación de captura de datos y una fuente de almacenamiento de datos que garantiza que no se migren errores de calidad de datos del primer extremo al segundo.

Ejemplo de validación de la calidad de los datos en tiempo real para los datos de los clientes

Cuando se despliega un cortafuegos central de calidad de datos, se comprueba la calidad de los datos entrantes casi en tiempo real. Por ejemplo, cuando se realiza un cambio en cualquier registro de cliente o cuando se crea un nuevo registro de cliente en cualquier aplicación conectada, la actualización se envía primero al motor central de calidad de datos. Aquí, el cambio se verifica con respecto a la definición de calidad de datos configurada, como por ejemplo, asegurándose de que los campos obligatorios no estén en blanco, que los valores sigan el formato y el patrón estándar, que un nuevo registro de cliente no coincida posiblemente con un registro de cliente existente, etc.

Si se encuentran errores de calidad de datos, se ejecuta una lista de reglas de transformación para limpiar los datos. En algunos casos, puede ser necesario que un administrador de la calidad de los datos intervenga y tome decisiones cuando los valores de los datos son ambiguos y no pueden ser bien procesados por los algoritmos configurados. Por ejemplo, podría haber un 60% de posibilidades de que un nuevo registro de cliente sea un duplicado, y alguien tendría que verificar y resolver manualmente el problema. Una vez hecho esto, el registro de datos limpiado, cotejado y verificado se envía a una fuente de destino, que puede ser un conjunto de datos maestros, un almacén de datos, un sistema de inteligencia empresarial, etc.

A continuación se muestra un ejemplo de esta arquitectura:

Funciones de una API de calidad de datos

Una buena API de calidad de datos es capaz de ejecutar diferentes tipos de funciones de calidad de datos en los datos entrantes. Dependiendo de los procesos incluidos en su marco de calidad de datos, puede suscribirse a las funciones necesarias a través de la API. Pero como la mayoría de las organizaciones no pueden permitirse el lujo de dejar que cualquier problema de calidad de datos, ya sea recurrente o nuevo, se suscriba a todas las técnicas de validación y fijación de la calidad de datos que ofrece la API.

Las funciones más comunes expuestas por una API de calidad de datos incluyen:

1. Conectar con las fuentes de datos

Esta es la funcionalidad principal y más beneficiosa que ofrece una API de calidad de datos. Las organizaciones utilizan múltiples aplicaciones de generación de datos, por ejemplo, herramientas de seguimiento de sitios web, herramientas de automatización de marketing, CRM, etc. Por esta razón, una API de calidad de datos debe ser capaz de conectarse y hablar con estas diferentes aplicaciones, así como con la base de datos de destino donde suelen acabar los datos entrantes.

2. Realización de controles de calidad de los datos

Cada vez que se produce un evento en una aplicación conectada (se crea un nuevo registro o se actualiza uno existente), la API puede evaluar y perfilar los datos entrantes en busca de errores de calidad de datos. Para ello, se ejecutan algoritmos estadísticos que evalúan los datos entrantes y validan si se ajustan a la definición de calidad de los datos. Estos controles incluyen garantizar que:

  • Los campos obligatorios no se dejan vacíos,
  • Los campos siguen el tipo de datos, el patrón y el formato correctos, y están dentro del rango válido,
  • Un nuevo registro es único y no es un duplicado de un registro existente,
  • Los nuevos datos se validan en función de las reglas de negocio personalizadas.

3. Solucionar los problemas de calidad de los datos

Una API de calidad de datos ofrece una serie de funciones que pueden corregir los errores y problemas descubiertos durante la elaboración de perfiles de datos. Estas funciones incluyen (pero no se limitan a):

  • Análisis de campos agregados en subcomponentes para crear valores de campo más significativos,
  • Transformación de tipos de datos, patrones y formatos siempre que sea necesario,
  • Eliminar espacios, caracteres o palabras innecesarias,
  • Convertir las abreviaturas en palabras adecuadas,
  • Sobrescribir o fusionar un nuevo registro con el duplicado (en caso de que ya exista un registro para la misma entidad).

4. Alerta para la revisión manual

A veces, una API de calidad de datos es incapaz de solucionar ciertos problemas de calidad de datos que son complejos por naturaleza. En estos casos, se emiten alertas a las partes interesadas apropiadas (administradores de datos o analistas de datos) para que los errores puedan ser revisados manualmente y se pueda tomar una de las acciones sugeridas. Por ejemplo, se sospecha que un nuevo registro es un duplicado con un ratio de probabilidad del 65%. Estas situaciones ambiguas requieren la intervención humana para resolver el problema y tomar la decisión correcta.

5. Mover los datos a la fuente de destino

Una vez que se valida que los datos siguen la norma de calidad requerida, la última función que realiza la API es trasladarlos a la fuente de destino. A veces se trata simplemente de una única base de datos, mientras que en otros casos podría haber múltiples ubicaciones de salida, como un sistema de inteligencia empresarial, un almacén de datos u otras aplicaciones de terceros, etc.

Beneficios de una API de calidad de datos

Estas son algunas de las ventajas de desplegar un cortafuegos central de calidad de datos:

1. Maximizar la fiabilidad y disponibilidad de los datos

Según el informe Rethink Data Report 2020 de Seagate, sólo el 32% de los datos de las empresas se pone en funcionamiento, mientras que el resto, el 68%, se pierde por falta de disponibilidad y fiabilidad de los datos.

Una de las mayores ventajas de la validación de la calidad de los datos en tiempo real es que garantiza un estado fiable de los datos en la mayoría de las ocasiones, ya que valida y corrige la calidad de los datos al instante después de cada actualización. Dado que una API de calidad de datos procesa, limpia y normaliza los datos en cuanto entran en el sistema, es más probable que estén disponibles cuando un consumidor los consulte para realizar tareas rutinarias.

2. Mejorar la eficiencia empresarial y operativa

Una encuesta reciente muestra que el 24% de los equipos de datos utilizan herramientas para encontrar problemas de calidad de datos, pero normalmente se quedan sin resolver.
La mayoría de las herramientas de calidad de datos tienen la capacidad de detectar problemas y emitir alertas en caso de que la calidad de los datos se deteriore por debajo de un umbral aceptable. Pero aún así, dejan de lado un aspecto importante: la automatización de la ejecución de los procesos de calidad de datos (ya sea en función del tiempo o de determinados eventos) y la resolución de los problemas de forma automática. La falta de esta estrategia obliga a la intervención humana, lo que significa que alguien tiene que activar, supervisar y finalizar los procesos de calidad de datos en la herramienta para solucionar estos problemas.

Se trata de una gran sobrecarga que un cortafuegos de calidad de datos resuelve fácilmente. Las organizaciones quieren invertir en la creación de un motor central de calidad de datos que sea capaz de ejecutar técnicas avanzadas de calidad de datos con una mínima intervención humana. Esto repercute positivamente en la eficacia operativa de la empresa y en la productividad de los equipos.

3. Construir soluciones a medida

Hoy en día, la definición de los datos de calidad está controlada por su organización y depende de reglas empresariales especializadas. Las técnicas de validación de datos implementadas en los formularios de entrada de datos o ejecutadas a través de un script python de un año de antigüedad no son suficientes. Las organizaciones buscan ahora construir su propio motor de calidad de datos a medida, algo que esté diseñado para sus necesidades específicas. Aquí es donde una API de calidad de datos ofrece enormes ventajas; tanto si quiere diseñar su propio marco de calidad de datos, su arquitectura de gestión de datos o sus soluciones de datos personalizadas.

4. Obtener un mayor control sobre la validación de la calidad de los datos

Lo mejor de una API es la capacidad de personalización que ofrece. Esto puede permitirle tener más control sobre el funcionamiento de sus procesos y el resultado que generan. Por ejemplo, puede definir reglas de negocio personalizadas para la validación de la calidad de los datos, así como configurar umbrales y variables que sean apropiados para los conjuntos de datos de su organización.

Otro ejemplo es la integración en el sistema de un portal de seguimiento de problemas personalizado que envía alertas a los administradores de datos cada vez que algo necesita atención inmediata. Los administradores de datos pueden utilizar el portal para realizar una revisión manual y anular las decisiones cuando sea necesario.

5. Aplicar políticas eficaces de gobernanza de datos

Otra ventaja de desplegar un cortafuegos central de calidad de datos es garantizar la aplicación efectiva de las políticas de gobernanza de datos. El término gobierno de los datos suele referirse a un conjunto de funciones, políticas, flujos de trabajo, normas y métricas que garantizan un uso eficiente de la información y su seguridad, y permiten a una empresa alcanzar sus objetivos empresariales.

La implementación personalizada de una solución de calidad de datos mediante una API puede ayudar a crear los roles y permisos de datos necesarios, diseñar flujos de trabajo para verificar las actualizaciones de la información, colaborar para fusionar múltiples activos de datos, rastrear quién actualizó la información y cuándo, etc.

6. Fuentes de datos de búsqueda inteligente

Dado que un cortafuegos de calidad de datos se conecta a todas las fuentes de datos principales de una organización, hay beneficios ocultos en esta arquitectura, y uno de ellos es la búsqueda inteligente de datos en todas las fuentes. Esto es beneficioso cuando las empresas quieren consultar de forma inteligente los datos de una o varias bases de datos sin necesidad de utilizar scripts SQL o lenguajes de programación avanzados. Un cortafuegos de calidad de datos puede ayudar a ello, ya que alberga complejos y avanzados algoritmos de comparación de datos.

Por ejemplo, cuando usted busca en fuentes conectadas registros cuyo nombre es Elizabeth, la API ejecuta reglas de negocio lógicas para consultar y hacer coincidir los datos, incluyendo técnicas de coincidencia de datos difusas, fonéticas y específicas del dominio. Esto ofrece resultados inteligentes en tiempo real donde los registros que tienen una posible variación de la palabra Elizabeth como el primer nombre también son buscados y mostrados, como Elisabeth, Alizabeth, Lisa, Beth, etc.

7. Reducir las molestias de importación/reimportación/exportación

Otra de las ventajas de desplegar una API de calidad de datos es que reduce las molestias de exportar, importar y reimportar datos. Esto es algo que debe hacerse mientras se utiliza una herramienta de calidad de datos independiente para limpiar, cotejar y verificar los conjuntos de datos. Con una API, puede hacer toda la limpieza, la coincidencia y la verificación de direcciones sin tener que salir de su sistema de origen. Permite que su herramienta de calidad de datos hable directamente con múltiples fuentes de datos para encontrar todos los registros asociados. También puede realizar cualquier cambio en los datos de forma automática, ahorrando tiempo y dinero, y reduciendo las posibilidades de que se produzcan errores.

8. Anexión automática a los almacenes de datos

Las organizaciones almacenan y mantienen toneladas de registros de datos históricos sobre clientes, productos y proveedores en almacenes de datos. Millones de estos registros se generan diaria o semanalmente. Pero antes de que los nuevos registros se puedan mover al almacén de datos central, se deben probar los estándares de calidad de datos adecuados y, en el caso de duplicados, se debe hacer coincidir para garantizar que el próximo registro enriquezca el anterior y no se vuelva a crear. como nuevo récord.

Aquí es donde una API de calidad de datos funciona excepcionalmente bien: procesando grandes cantidades de datos casi en tiempo real en segundo plano, y extrayendo la identificación única de un registro existente, realizando la coincidencia de datos para identificar coincidencias exactas o difusas, y añadiendo nuevos atributos de datos al registro existente.

Conclusión:

La aplicación de medidas de calidad de datos coherentes, automatizadas y repetibles puede ayudar a su organización a alcanzar y mantener la calidad de los datos en todos los conjuntos de datos en tiempo real.

Data Ladder ha servido soluciones de calidad de datos a sus clientes desde hace más de una década. DataMatch Enterprise es uno de sus principales productos de calidad de datos, disponible como aplicación independiente y como aplicación integrable. API – que le permite utilizar cualquier función de gestión de la calidad de los datos en su aplicación personalizada o existente, y configurarla en tiempo real conexión de la fuente de datos, perfilado, de limpieza, que coinciden, deduplicación, y purgade la fusión.

Puede descargar la prueba gratuita hoy mismo o programar una sesión personalizada con nuestros expertos para entender cómo las capacidades de la API del ISD pueden ayudarle a crear su propia solución personalizada y sacar el máximo partido a sus datos.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.