A medida que las empresas invierten miles de millones de dólares en big data con la esperanza de convertir los datos en dinero, la necesidad de un software, una solución y unas herramientas de preparación de datos eficientes y fáciles de usar también aumenta. Cada vez es más difícil para las empresas preparar los datos con métodos tradicionales, especialmente ahora que los big data son de naturaleza muy compleja. Los procedimientos básicos de ETL ya no hacen el trabajo. De ahí la necesidad de una herramienta de preparación de datos potente y de primera clase.
Esta guía rápida sobre la preparación de datos ayudará a los novatos en la ciencia de datos, a los expertos, a los usuarios empresariales y a los responsables de la toma de decisiones a comprender mejor el proceso de preparación de datos, su importancia en nuestro entorno empresarial y cómo una solución de primera clase puede ayudarle a alcanzar sus objetivos de preparación de datos. Vamos a cubrir en profundidad las respuestas a las preguntas como:
- ¿Qué es la preparación de datos?
- ¿Por qué es importante la preparación de los datos?
- ¿Cómo se preparan los datos?
- Desafíos en el proceso de preparación de datos
- Principales ventajas de la preparación de datos
- Mejores prácticas
Vamos a sumergirnos.
¿Qué es la preparación de datos?
La definición estándar de preparación de datos es:
«El proceso de recopilación, combinación, estructuración y organización de datos».
Pero la preparación de los datos en la era del big data es algo más que organizarlos.
Es una necesidad que alimenta la toma de decisiones.
Es un requisito para dar sentido a la inversión de 65.000 millones de dólares en análisis de grandes datos.
También es un nuevo enfoque muy necesario para la preparación de datos en régimen de autoservicio, que permite a los usuarios de la empresa ser capaces de optimizar sus datos para el uso previsto.
En la práctica, la preparación de datos es un flujo de trabajo compuesto por:
- Perfilado de datos: Evaluación de los datos para ver la naturaleza y el alcance de los problemas, como los campos no estructurados, los valores que faltan, los nombres mal escritos, el exceso de errores tipográficos, el uso de caracteres no imprimibles, etc.
- Limpieza de datos: Uso de reglas de negocio predefinidas para limpiar los datos desordenados.
- Desduplicación de datos: Los duplicados son un grave problema que hay que atajar. Aunque se pueden gestionar los datos desordenados, son los datos duplicados los que pueden causar estragos imprevistos.
- Validación de datos: El proceso de verificación o validación de sus datos con las normas de la autoridad. Por ejemplo, validando los datos de las direcciones con los de USPS.
- Transformación de datos: Convertir los datos desordenados y sin procesar en datos útiles y limpios.
- Fusión de datos y supervivencia: Fusión de múltiples fuentes de datos para crear registros maestros finales.
La imagen siguiente es un ejemplo del tipo de datos erróneos para los que necesitará una solución de preparación de datos para resolverlos.
Cada una de estas subactividades es un proceso complejo que lleva días y meses. Esta es una de las razones por las que los científicos de datos acaban dedicando el 80% de su tiempo a arreglar los datos. A pesar de la enorme inversión en análisis de big data, las empresas siguen teniendo problemas para preparar sus datos.
Hay que tener en cuenta que la preparación de los datos no es una simple cuestión de ejecutar sus conjuntos de datos con una herramienta o un software.
En teoría, la preparación de los datos implica:
- Identificar un problema
- Reconocer el problema
- Comprender cómo afecta el problema a la empresa
- Evaluación de un enfoque organizativo de la calidad de los datos
- Analizar la estrategia de datos actual
- Aplicación de un plan de calidad de datos
- Desplazar las dependencias del equipo de TI y permitir a los usuarios de la empresa
En nuestra experiencia trabajando con empresas de la lista Fortune 500, hemos visto que las empresas que son conscientes de los problemas empresariales subyacentes con los datos tienen más probabilidades de tener éxito con la preparación de datos. Estas organizaciones conocen el problema y su impacto en la empresa. Por otro lado, las organizaciones que no evaluaron, comprendieron y reconocieron los problemas de sus datos tuvieron dificultades para que la preparación de los mismos tuviera éxito.
A continuación se presenta un resumen del proceso de preparación de datos utilizado en DataMatch Enterprise, la herramienta de preparación de datos insignia de Data Ladder.
Identificar la necesidad y hacer las preguntas correctas sobre el negocio
Aunque suene extraño, la preparación de los datos no empieza exactamente con los datos, sino con la identificación de una necesidad en la toma de decisiones de la empresa. Comienza con la comprensión de cómo un determinado conjunto de datos influye en las estrategias de marketing, el despliegue de recursos, la distribución de productos y cualquier otra área de las operaciones corporativas. La toma de decisiones empresariales correctas y con conocimiento de causa es la principal necesidad de las empresas que operan con información: si la empresa no tiene acceso a esta información, está condenada.
Sin embargo, a la hora de formular las preguntas, es necesario ser preciso. No se puede tener un enfoque general para la preparación de datos o la calidad de los mismos.
No se puede arreglar un millón de registros de clientes sólo porque se quieran limpiar los datos. El coste del descubrimiento y la preparación de los datos no debe ser mayor que el valor obtenido o el esfuerzo no será rentable.
Tiene que haber un objetivo.
El objetivo debe estar vinculado a la rentabilidad y la eficiencia.
Es necesario evaluar los datos y su capacidad para apoyar ese objetivo.
El objetivo debe ayudar a responder a preguntas de negocio como:
- ¿Estamos ganando dinero con este objetivo? (Un nuevo producto, una nueva actividad promocional, un nuevo objetivo de marketing, etc.)
- ¿Este objetivo nos ayuda a tener éxito con la satisfacción del cliente o incluso con la adquisición y retención?
- ¿Por qué intentamos conseguirlo?
- ¿Cómo vamos a medir el éxito o el fracaso de un proyecto?
- ¿De qué herramientas o recursos disponemos para llevar a cabo este objetivo?
- ¿Qué herramientas o recursos adicionales necesitaremos y por qué?
- ¿Cuál será el coste de esas herramientas y cuál es el retorno de la inversión que esperamos obtener?
Como regla general, comience con una pregunta de negocio, plantee una hipótesis, realice un análisis exhaustivo del impacto de sus decisiones y, finalmente, trace las conclusiones para su ecuación de negocio.
Entender sus datos
Antes de empezar a ejecutar una estrategia empresarial, es necesario entender los datos.
- ¿Tiene datos brutos, sin tratar?
- ¿Tiene datos técnicamente correctos pero duplicados?
- ¿Tienes datos limpios y utilizables para trabajar?
- ¿Tiene datos aislados procedentes de distintas fuentes?
- ¿Tiene una selección del tipo de datos que necesitará para este objetivo?
- ¿Necesita integrar grandes fuentes de datos, como las redes sociales o los datos transaccionales o de comportamiento, para obtener una visión unificada de sus clientes?
- ¿Dispone de un sólido software de preparación de datos que le permita trabajar con sus datos en su dominio de nube o servidor?
Es importante mencionar tres retos comunes a los que las empresas suelen enfrentarse a la hora de preparar sus datos para su uso previsto. Estos problemas pueden resolverse con una solución de preparación de datos, pero habrá que medir la magnitud de la actividad y el tipo de formación o curva de aprendizaje que se necesitará para utilizar el software. Muchas empresas gastan millones sólo para que especialistas capacitados trabajen en un software de preparación de datos, por lo tanto, asegúrese de lo que necesita hacer antes de invertir una cantidad considerable en una solución popular de calidad de datos.
¿Por qué es importante la preparación de los datos?
Aunque todo el mundo habla de la preparación de datos, nadie hace nada al respecto. Una vez identificados los objetivos o los problemas que hay que resolver, la preparación de los datos es la clave para resolver el problema. Es fácilmente la diferencia entre el éxito y el fracaso, entre las ideas útiles y el texto ininteligible, entre lo que es una decisión informada y las suposiciones o teorías inútiles.
Por ejemplo, un cliente tuvo que utilizar sus datos para lanzar una estrategia de personalización de clientes. La organización se consideraba a sí misma como impulsada por los datos porque había hecho lagos de datos para almacenar los datos de los hogares de sus clientes y ahora quería utilizar esos datos para ofrecer servicios de personalización. Aunque eran conscientes de los problemas de los datos brutos, no estaban preparados para lidiar con el excesivo número de duplicados y la basura que hacía inútil casi el 40% de sus datos. Antes de iniciar sus objetivos de personalización, tuvieron que preparar y limpiar sus datos.
Así, aunque las empresas tienen enormes lagos de datos, al final se convierten en vertederos de datos porque el pensamiento inicial era que «más datos es mejor». Este enfoque ya no funciona. Es necesario preparar los datos y sus subactividades para garantizar que se dispone de datos utilizables para trabajar.
Si no es así, la falta de datos limpios podría dar lugar a:
- Ineficacia operativa: Los equipos y los procesos se verán afectados al no disponer del conjunto de datos adecuado para trabajar y contribuir al objetivo.
- Poca satisfacción del cliente: Una empresa que gestiona mal los datos puede cometer errores embarazosos y perder oportunidades que se traducirán en una escasa satisfacción del cliente.
- Costes innecesarios: Las consecuencias de una mala gestión de los datos se traducirán en todo tipo de costes que podrían ser perjudiciales para su negocio: multas legales, problemas de seguridad de los datos, sanciones por el cumplimiento de los datos, devoluciones de correos, pérdida de clientes, etc.
- El crecimiento se ha detenido: El mercado es muy dinámico. Si no apuestas por los datos, no podrás crecer. Las empresas futuristas se centran en la optimización de sus datos.
- Perspectivas defectuosas: Casi todas las empresas realizan algún tipo de modelado de datos para obtener información y análisis. Los datos imprecisos que no han sido sometidos a un proceso de preparación de datos serán la causa de una visión errónea, cuyas consecuencias conocemos demasiado bien.
En su forma más sencilla, la preparación de los datos nos ayuda a comprender la información de los datos que no podemos entender con sólo mirarlos. Eso es todo. Y ese es el propósito más importante de esta actividad.
¿Cómo se preparan los datos?
La preparación de los datos ha sido en gran medida un esfuerzo manual. Una vez seleccionado un conjunto de datos para su uso, se pasa por un software de preparación de datos en el que se aplican operaciones específicas a los archivos. Por ejemplo, una de estas operaciones puede consistir en eliminar manualmente datos de texto en un campo numérico para el que se utilizarán fórmulas o una combinación de funciones. Mientras que esto funcionaba para conjuntos de datos pequeños y no tan complejos, hoy en día, a medida que el volumen y la complejidad de los datos aumentan, los científicos de datos encuentran excesivamente frustrante pasar la mayor parte de su tiempo sólo preparando estos datos.
Lo más probable es que su organización ya esté utilizando un proceso ETL para dar sentido a los datos, sin embargo, el ETL está muy restringido y no permite a los usuarios de la empresa hacer un uso eficiente de sus datos. Lea el siguiente post para conocer la diferencia entre ETL y preparación de datos.
Por este motivo, a lo largo de los años ha aumentado el número de proveedores de software. La mayoría de estas herramientas ofrecen ahora una función de autoservicio en la que los usuarios empresariales también pueden participar en el proceso de preparación de datos.
Una herramienta como DataMatch Enterprise, por ejemplo, simplifica el proceso de preparación de los datos llevando al usuario a través de un flujo de trabajo que le permite limpiar, desduplicar y fusionar los datos de forma sencilla: un proceso que normalmente lleva días y meses, pasaría a durar sólo unos minutos.
Las herramientas de preparación de datos también facilitan la gestión de datos incoherentes almacenados en silos. Hace unas décadas, había que fijar los datos en su sistema individual e intentar fusionar partes de estos datos manualmente y, aun así, no se conseguía el análisis que se necesitaba.
Ahora puede integrar fácilmente un número ilimitado de conjuntos de datos, fusionarlos, depurarlos y prepararlos como considere oportuno. Es como una actividad de arrastrar y soltar, que requiere una experiencia técnica muy limitada.
Desafíos en el proceso de preparación de datos:
Aunque la preparación de datos se ha facilitado, los retos de la preparación de datos siguen siendo los mismos, si no más complejos y problemáticos. Algunos de los principales retos a los que deben enfrentarse las empresas son:
Datos en silos y fuentes dispares: Las empresas ahora quieren crear vistas unificadas de los clientes para crear experiencias de personalización o para obtener una visión general de las oportunidades ocultas. Por ejemplo, un minorista quería consolidar los datos de múltiples fuentes de datos para ofrecer una experiencia digital fluida a sus compradores procedentes de diferentes regiones europeas.
Pero la consolidación de datos procedentes de múltiples fuentes no es un asunto fácil. Los datos almacenados en fuentes dispares varían en estructura, forma y propósito. Y lo que es más importante, los errores en los datos variaban culturalmente. Los nombres italianos, por ejemplo, se escriben con más frecuencia que los americanos. Preparar estos datos y hacerlos útiles para el minorista lleva mucho tiempo. Incluso si se utiliza una herramienta de preparación de datos, todavía habrá que hacer un esfuerzo manual para revisar los nombres de las diferentes culturas y garantizar que no se cometan errores.
Datos duplicados: Casi todas las empresas con las que hemos trabajado señalan que la duplicación de datos es uno de los principales obstáculos para el éxito de la preparación de datos. Aunque existen docenas de herramientas de preparación de datos que permiten corregir las anomalías de los datos, muy pocas tienen la capacidad de corregir los datos duplicados con una tasa de coincidencia del 100%. De hecho, la concordancia de datos es una solución muy demandada, ya que muy pocos proveedores consiguen alcanzar el 95% de precisión en la concordancia.
Un instituto gubernamental con el que trabajamos descubrió que su solución interna de deduplicación de datos sólo podía hacer la mitad del trabajo de eliminación de duplicados. Cuando utilizaron DataMatch, pudieron eliminar un 40% adicional de datos duplicados.
Datos inconsistentes: También conocidos como datos sucios. La calidad de los datos es siempre dudosa mientras se trate de seres humanos que teclean nombres y direcciones de clientes, códigos de productos y precios. Inevitablemente, los métodos manuales dan lugar a errores cuya resolución requiere un esfuerzo manual considerable. Es aún más complicado y desordenado cuando hay que combinar los datos corporativos con los datos externos de terceras fuentes. Por ejemplo, los datos de las redes sociales de un cliente son todo menos consistentes. Algunos pueden utilizar abreviaturas en sus nombres, otros pueden utilizar un nombre alternativo… la lista continúa.
Estos problemas han impulsado el auge del software de autoservicio y de preparación de datos basado en la nube, que permite a los usuarios integrar datos de múltiples fuentes, crear reglas empresariales de acuerdo con sus requisitos de datos y reunir a los usuarios de TI y de la empresa para resolver problemas de calidad de datos.
Mejores prácticas para la preparación de datos
Ahora que el mundo avanza hacia los objetivos de la IA, el aprendizaje automático y la inteligencia empresarial, debe centrarse en la preparación de los datos para alcanzar estos objetivos. Sin embargo, el uso de un software o herramienta de preparación de datos es sólo una parte de la solución. Tendrá que incorporar prácticas adicionales para la preparación de datos que deben incluir:
- Hacer de la calidad de los datos una prioridad: Los problemas y desafíos en la preparación de los datos se deben a la falta de atención a la calidad de los mismos. Las empresas pueden hablar de la calidad de los datos, pero no la convierten en un objetivo organizativo. Seguirás arreglando los mismos errores repetidamente a menos que rectifiques el origen del problema. Por ejemplo, su equipo de ventas está arruinando la calidad de los datos al introducir información inexacta, omitir información importante o cometer errores humanos al introducir los datos. Para frenar esto, su equipo tendrá que recibir formación sobre la calidad de los datos, ayudándoles a entender el impacto de un error tipográfico o de la falta de información en los procesos posteriores.
- Los informáticos pueden facilitar a los usuarios empresariales las sesiones de formación y aprendizaje: Esta es una buena manera de salvar la brecha entre el departamento de TI y los usuarios de la empresa. El departamento de TI puede planificar sesiones de formación y aprendizaje sobre la calidad de los datos para ayudar a los usuarios de la empresa a comprender la importancia de la calidad y la preparación de los datos. A medida que los usuarios de la empresa se familiarizan con el problema, los usuarios autorizados pueden equiparse con las herramientas de preparación de datos adecuadas para empezar a preparar sus datos para el uso de la empresa sin depender de TI.
- Siga el proceso de preparación de datos: Si utiliza un software de preparación de datos como DataMatch Enterprise, seguirá un proceso paso a paso que llevará sus datos desde su estado bruto hasta su etapa final en 8 módulos. Si no utiliza una herramienta y la aplica por su cuenta, asegúrese de seguir el flujo de trabajo que se indica a continuación
La tarea es enorme. Pero cualquier organización inteligente sabrá que el objetivo no es la perfección al 100% ni un enfoque global. El objetivo es garantizar una cultura y un enfoque de la calidad de los datos en el que se prevengan los problemas antes de que se conviertan en molestias difíciles.
Conclusión:
La preparación de los datos es sólo una parte del primer paso de la gestión de datos, y aunque existen potentes herramientas de preparación de datos que hacen la mayor parte del trabajo duro, las empresas seguirán necesitando a personas que verifiquen, validen y se aseguren de que el resultado es el deseado. Es importante reconocer que las herramientas son tan inteligentes como los seres humanos que las utilizan. Dado que el futuro es la IA y el ML, es imperativo que las empresas comiencen un enfoque centrado en la preparación de datos, convirtiendo sus datos en combustible que impulsa a la organización hacia adelante.
Cómo funcionan las mejores soluciones de concordancia difusa de su clase: Combinando algoritmos establecidos y propios
Inicie su prueba gratuita hoy mismo
¡Vaya! No hemos podido localizar tu formulario.