Blog

Cómo la calidad de los datos es un reto importante para la ingestión de los lagos de datos y qué puede hacer para asegurar que su proyecto de lago de datos sea un éxito

Written by lbarrera
octubre 23, 2018

Loslagos de datos surgieron como una solución para almacenar datos no estructurados, una alternativa a la naturaleza restrictiva de los almacenes de datos. Pero esta facilidad viene acompañada de su propio conjunto de desafíos únicos que las organizaciones están encontrando difícil de superar.

De hecho, algunos retos de los lagos de datos son tan difíciles de superar que las organizaciones están abandonando la idea de mantener un lago de datos.

Las principales empresas de análisis llevan tiempo citando tasas de fracaso de los lagos de datos del 85%. (Teradata)

¿Cuáles son estos desafíos únicos y hay una manera de que las organizaciones mantengan su lago de datos y cumplan el propósito para el que fue diseñado?

Descubramos más.

¿Por qué los lagos de datos y no los almacenes de datos?

Una organización de nivel empresarial está conectada con al menos 464 aplicaciones. La cantidad de información que llega desde todas esas aplicaciones debe almacenarse en algún lugar. Hablamos de todo tipo de datos estructurados y semiestructurados que se recogen a través de múltiples fuentes de datos; aplicaciones móviles, aplicaciones web, registros de actividad, registros telefónicos, redes sociales y cientos de otras fuentes.

Todos estos datos combinados conforman la inteligencia empresarial que las organizaciones necesitan para tomar decisiones comerciales estratégicas.

Los almacenes de datos, que eran los métodos tradicionales de almacenamiento de datos empresariales, requieren que los datos estén estructurados. No se podían volcar los datos en un almacén de datos sin ordenarlos o alinearlos con la estructura definida.

Los lagos de datos superaron esta limitación. Con la implementación de pipelines de datos, todas las fuentes de datos podían ser transportadas al lago y mantenerse allí hasta que la empresa necesitara datos para el análisis, la elaboración de informes y el BI.

Aunque los lagos de datos resolvieron el problema de la conservación de los datos, plantearon un reto importante: el de la calidad de los datos.

Dado que los datos se introducen simplemente en el sistema, parece que los analistas no tienen forma de determinar la calidad de los datos. No se realizó una revisión inicial. Además, el mayor reto a la luz de la reciente normativa es la privacidad y el cumplimiento de los datos. Sin nadie que dé cuenta de la calidad de los datos, las organizaciones están perdidas cuando tratan con datos brutos.

Introduce la ingesta de datos.

¿Cómo ayuda la ingesta de datos a los retos del lago de datos?

La ingesta de datos es la capa entre las fuentes de datos y el propio lago de datos. Esta capa se introdujo para acceder a los datos sin procesar de las fuentes de datos, optimizarlos y luego ingerirlos en el lago de datos.

Sin embargo, es sorprendente ver que la ingesta de datos se utiliza como una idea tardía o después de la inserción de los datos en el lago. De hecho, la mayoría de las organizaciones pasan por alto el proceso de ingestión de datos, ya que subestiman la complejidad de trasladar los datos desde las fuentes de datos al lago de datos. Sólo en un momento crítico, cuando necesitan datos, se dan cuenta de que tienen un reto importante entre manos.

Si nos fijamos, el objetivo de tener un lago de datos es almacenar datos que puedan utilizarse posteriormente sin preocuparse de su estructura, pero eso no significa literalmente que se ingieran en el sistema sin limpiarlos o asegurarse de que aportan valor.

Si los datos no se gestionan, el lago de datos se convierte en un pantano de datos, donde se tienen datos confusos en un repositorio que no se pueden utilizar ni analizar. Esto contradice el propósito de un lago de datos, por lo que es la principal causa del fracaso de la mayoría de los proyectos de lago de datos.

Repitámoslo:

La ingestión es un proceso planificado y que debe realizarse por separado antes de introducir los datos en el sistema. Este proceso planificado debe seguir el objetivo de disponer de datos completos, precisos y coherentes a lo largo del tiempo.

Tenga en cuenta que la ingestión de datos no significa el perfeccionamiento de los datos en bruto. Simplemente permite mantener una organización básica en la que se eliminan los duplicados y se destaca la información incompleta o nula, lo que facilita que cualquier conjunto de datos esté disponible para su análisis inmediato.

Funciones de ingestión de datos

Aunque la mayoría de los lagos de datos actuales incorporan la ingesta de datos, a menudo se pasan por alto funciones clave. A continuación se presentan tres funciones importantes de la ingesta que deben implementarse para que un lago de datos tenga datos útiles y valiosos.

El proceso de recogida de datos: El objetivo principal de la ingesta de datos es recoger datos de múltiples fuentes en múltiples formatos -estructurados, no estructurados, semiestructurados o multiestructurados-, ponerlos a disposición en forma de flujo o lotes y trasladarlos al lago de datos.
El proceso de filtrado: En esta primera etapa del ciclo de vida de los datos, éstos pasan por un proceso básico de filtrado y saneamiento en el que se realizan actividades de análisis y desduplicación. Otras operaciones complejas, como la identificación y eliminación de valores de datos no válidos o nulos, también pueden realizarse mediante scripts.
El proceso de transporte: El transporte de los datos a sus respectivos almacenes dentro del lago de datos es un proceso que depende de la claridad de las reglas de enrutamiento y de los procedimientos de automatización que se establezcan.

Ingestión por lotes o por streaming

Hay dos tipos de modelos de ingestión y ambos dependen del tipo de requisitos o expectativas que las empresas tengan de sus datos.

Procesamiento por lotes: Es el tipo de ingesta de datos más común en el que se recogen periódicamente grupos de datos de origen y se envían al sistema de destino. Puede haber una programación sencilla en la que los datos de origen se agrupen según un orden lógico o determinadas condiciones. El procesamiento por lotes suele ser más fácil de gestionar mediante la automatización y también es un modelo asequible.

Streaming: Se basa en un procesamiento en tiempo real que no implica ninguna agrupación. Los datos se cargan en cuanto aparecen y son reconocidos por la capa de ingestión. Aunque se trata de un modelo caro y más complejo, funciona eficazmente para las organizaciones que necesitan datos inmediatos, continuos y actualizados.

Desafíos de la ingestión del lago de datos

Aunque la ingesta de datos intenta resolver los retos de los lagos de datos, no está exenta de desafíos. Algunas dificultades pueden afectar a la capa de ingestión, lo que a su vez repercute en el rendimiento del lago de datos.

Veamos algunos de los principales retos.

Gestionar el volumen de datos entrantes con rapidez

Los volúmenes de datos se han disparado y, a medida que el ecosistema global esté más conectado e integrado, los volúmenes de datos aumentarán exponencialmente. Además, las propias fuentes de datos evolucionan constantemente, lo que significa que los lagos de datos y las capas de ingestión de datos tienen que ser lo suficientemente robustos como para ingerir este volumen y diversidad de datos. El reto es aún más difícil de superar cuando las organizaciones implementan un proceso de ingestión de datos en tiempo real que requiere que los datos se actualicen e ingieran a gran velocidad.

Dado que la ingestión de datos y los lagos de datos son tecnologías bastante nuevas, aún no han alcanzado una velocidad vertiginosa. Dependiendo de la aplicación, el procesamiento de datos en tiempo real puede tardar hasta 10 minutos en cada actualización.

Cumplir con las nuevas directrices de cumplimiento de datos

El cumplimiento legal de los datos por parte de países de todo el mundo ha dificultado a las empresas la clasificación de sus datos de acuerdo con los cumplimientos normativos. Las empresas tienen que cumplir con el GDPR de Europa, así como con docenas de otras normas de cumplimiento en los Estados Unidos. Por lo tanto, los datos deben clasificarse de acuerdo con estas normas en la capa de ingestión para evitar cualquier problema en el futuro. Esto exige una planificación integral de la ingesta de datos.

Limpieza de datos para la preparación de datos

Este es un reto muy olvidado de los lagos de datos. De alguna manera, se supone que el proceso de limpieza sólo debe tener lugar cuando los datos son necesarios para el análisis. Este enfoque no sólo provoca importantes cuellos de botella, sino que también deja a la empresa expuesta a los otros dos retos de la privacidad y la seguridad de los datos mencionados anteriormente.

Lo ideal es que la limpieza de los datos para la preparación de los mismos comience antes de que se ingieran en el lago. Realizar la depuración básica evitará que el equipo de datos pierda su tiempo intentando dar sentido a los datos en bruto. En esta fase, los datos brutos deben filtrarse para detectar duplicados, campos incompletos e inválidos, etc. Una vez hecho esto, los analistas pueden optar por realizar más ajustes u optimizaciones para su propósito.

Calidad de los datos en la ingestión del lago de datos

Ya sea durante la fase de ingesta de datos o en la fase de transformación de los mismos, se necesitará una solución de calidad de datos para procesar los datos antes de que se utilicen para el análisis. Cuando hablamos de calidad de datos, nos centramos principalmente en:

Limpiar los datos en bruto de errores tipográficos, problemas estructurales como la ortografía, las minúsculas y las mayúsculas, etc.
Campos inválidos, incompletos, nulos o sin valor
Y lo que es más importante, datos duplicados que se convierten en un importante cuello de botella en la línea

Para llevar a cabo la limpieza de datos necesitará la implementación de una herramienta de calidad de datos que le permita procesar los datos en bruto directamente desde su fuente de datos.

DataMatch Enterprise de Data Ladder es una potente herramienta que puede utilizarse para limpiar, cotejar y deduplicar datos sin procesar. Permite la integración con más de 150 aplicaciones y bases de datos, lo que significa que puede utilizarlo como herramienta para capturar sus datos antes de trasladarlos al lago de datos.

También se puede utilizar en la fase de transformación de datos si se quiere profundizar en los problemas de sus datos, como la elaboración de perfiles de datos, la verificación y validación de direcciones, etc.

La herramienta se despliega como una solución local que puede utilizar en su escritorio o en un servidor en la nube. ¿Punto positivo? Esta herramienta realiza tanto el procesamiento por lotes como en tiempo real, a la vez que permite programar futuros procesos.

El resultado final

Es importante implementar una infraestructura de ingesta adecuada que permita que el lago de datos almacene datos completos, en el momento oportuno y listos para el consumo. A diferencia de un almacén de datos, los lagos de datos destacan por utilizar la disponibilidad de enormes cantidades de datos coherentes para mejorar el análisis de decisiones en tiempo real. No sólo es útil en aplicaciones analíticas predictivas avanzadas, sino que también puede ser productivo en la elaboración de informes organizativos fiables, sobre todo cuando contiene diferentes diseños de datos.

Sin embargo, para que los lagos de datos funcionen, la ingesta de datos debe planificarse como una actividad independiente y la calidad de los datos debe ser el objetivo principal. Cuando no se tiene en cuenta la calidad de los datos, se crea una ola de problemas que afecta a todo el proceso, desde la recogida de datos hasta el producto final.

¿Quiere saber más sobre cómo podemos ayudarle durante el proceso de ingestión de datos? Póngase en contacto con nosotros y deje que nuestro arquitecto de soluciones le guíe por el camino.

Try data matching today

No credit card required

"*" señala los campos obligatorios

Want to know more?

Check out DME resources

¡Vaya! No hemos podido localizar tu formulario.

POR CARACTERÍSTICA

POR CASO DE USO

POR INDUSTRIA

NUESTROS PRODUCTOS

SOBRE NOSOTROS

CLIENTES

COMPARAR

PERSPECTIVAS

APOYO