Blog

8 mejores prácticas para garantizar la calidad de los datos en la empresa

En febrero de 2020, Facebook entregó un conjunto de datos anónimos a Social Science One, con el fin de obtener información sobre las comunicaciones y el comportamiento en las redes sociales. El conjunto de datos contenía información sobre 38 millones de URLs que fueron compartidas más de 100 veces públicamente.

El 2021 de septiembre, Facebook reconoció a tres docenas de investigadores que el conjunto de datos tenía graves errores y se disculpó por el impacto negativo que tuvo en sus investigaciones. Resulta que Facebook no incluyó los datos de la mitad de sus usuarios de EE.UU., ya que estaban menos polarizados políticamente en comparación con los usuarios en general. La portavoz de Facebook explicó que este incidente se debió a un error técnico que había surgido en su conjunto de datos de URLs compartidas.

Hoy en día, los datos son sin duda uno de los mayores activos de una organización. Se utiliza en todas partes, desde las operaciones cotidianas de una empresa hasta el impulso de sus iniciativas de inteligencia empresarial, o en el caso de Facebook, facilitando más de 100 investigaciones. Pero la ausencia de técnicas de calidad de datos y de mejores prácticas (que rastreen y solucionen a tiempo los problemas de calidad de datos) puede hacer que una empresa pierda mucho dinero y se arriesgue a quedarse atrás.

En este blog, examinaremos una serie de mejores prácticas y procesos de calidad de datos que pueden ayudar a conseguir una alta calidad de datos a nivel empresarial. Además de destacar lo que se necesita, también mencionaré los elementos procesables que pueden ayudarle a alcanzar ese estado.

Además, las prácticas que se mencionan a continuación darán los mejores resultados si se llevan a cabo de forma sistemática a intervalos regulares en una empresa. Los datos (en su definición y uso) son propensos a cambiar. Por lo tanto, si su empresa revisa constantemente estas prácticas, sin duda podrá conseguir resultados mejores y más duraderos.

Empecemos.

1. Averiguar la relación entre los datos y el rendimiento empresarial

Empezamos con esta práctica porque es la parte más importante y fundamental para permitir la gestión, adopción y uso adecuados de los datos en cualquier organización. En primer lugar, debe comprender cómo los datos contribuyen a sus metas y objetivos empresariales.

¿Qué aspecto tiene?

Esto puede implicar el análisis de la función de los datos a alto nivel (por ejemplo, destacando las áreas en las que se utilizan los datos), así como profundizar en detalles específicos (como el papel de los datos en las operaciones diarias, los procesos empresariales, el intercambio de información entre departamentos, etc.).

Una vez identificado esto, es el momento de plantear esta pregunta: si estos procesos o áreas no fueron facilitados por datos de calidad, ¿qué impacto puede tener en los KPIs resultantes?

Un ejemplo de esta situación es cuando los ejecutivos de nivel C establecen el objetivo de ingresos para el siguiente trimestre basándose en los datos de ventas del último trimestre, pero sólo para descubrir que el conjunto de datos utilizado para predecir el objetivo futuro tenía graves problemas de calidad de datos, lo que hace que su departamento de ventas persiga un valor arbitrario que no tiene ningún significado concreto. La situación resultante tiene un enorme impacto negativo en las operaciones y la reputación de la empresa, como el establecimiento de expectativas poco realistas de los representantes de ventas, la promesa de cifras de ingresos inexactas, etc.

¿Cómo ayuda?

Comprender el papel de los datos en todos los procesos que se llevan a cabo en una empresa permite tener siempre a mano un caso para priorizar los datos y su calidad. De hecho, esto también le ayudará a conseguir la aceptación y la atención necesarias de las partes interesadas, algo que es crucial para realizar y proponer cambios en los procesos existentes.

2. Medir y mantener la definición de la calidad de los datos

Una vez que conozca el impacto de los datos en su negocio, el siguiente paso es lograr la calidad de los datos en todos los conjuntos de datos de su organización. Pero antes de hacerlo, es importante entender la definición de calidad de datos, ya que significa algo diferente para cada empresa.

La calidad de los datos se define como el grado en que los datos cumplen con su propósito. Por lo tanto, para entender el significado de la calidad de los datos en su caso, es necesario saber cuál es el objetivo que se persigue.

¿Qué aspecto tiene?

Para definir la calidad de los datos de su empresa, debe empezar por identificar los:

  • Fuentes que generan, almacenan o manipulan datos,
  • Atributos almacenados por cada fuente,
  • Glosario de metadatos que define cada atributo,
  • Criterios de aceptabilidad de los valores de los datos almacenados en los atributos, y
  • Métricas de calidad de datos que miden la calidad de los datos almacenados.

Un ejemplo de definición de la calidad de los datos en su empresa es la elaboración de modelos de datos que destaquen las partes necesarias de los mismos (la cantidad y la calidad de los datos que se consideran suficientemente buenos). Considere la siguiente imagen para entender cómo puede ser un modelo de datos para una empresa minorista:

Por otra parte, además de diseñar modelos de datos, también es necesario identificar métricas de calidad de datos que confirmen la presencia de un nivel de calidad aceptable en sus conjuntos de datos. Por ejemplo, puede exigir que su conjunto de datos sea más preciso y fiable, en lugar de completo.

¿Cómo ayuda?

Una definición estandarizada de la calidad de los datos ayuda a que todas las personas se pongan de acuerdo, de modo que puedan entender qué significa la calidad de los datos, qué aspecto tiene y cómo puede medirse. Esto permite que cada persona entienda y cumpla los requisitos de calidad de los datos.

3. Establecer las funciones y responsabilidades de los datos en toda la organización

Se suele considerar que para garantizar la calidad de los datos a nivel empresarial es necesario que la alta dirección se implique o participe. La verdad es que, más que implicar a determinadas personas en entornos aislados, hay que contratar a personas en los procesos existentes y hacerlas responsables de alcanzar y mantener la calidad de los datos, desde la alta dirección hasta el personal operativo.

¿Qué aspecto tiene?

Algunas de las funciones de datos más comunes e importantes y sus responsabilidades son:

  • Chief Data Officer (CDO): representante de los datos en la alta dirección, responsable de diseñar estrategias para garantizar la gestión eficaz de los datos, el seguimiento de la calidad de los datos y su adopción en toda la organización.
  • Administrador de datos: controlador de la calidad de los datos, responsable de garantizar la adecuación de los datos a su finalidad y de gestionar los metadatos.
  • Líder de datos y análisis (D&A): un jugador de datos, responsable de garantizar la alfabetización de datos en toda la organización, y de permitir que los datos produzcan valor.

¿Cómo ayuda?

Cuando los datos se tratan como la fuente principal que alimenta los procesos empresariales básicos, se produce un cambio en toda la empresa. Aquí es donde la asignación de funciones y responsabilidades en el ámbito de los datos y el hecho de dar a las personas el poder de influir y hablar sobre cuestiones de datos cruciales puede desempeñar un papel importante para garantizar el éxito de la cultura de datos en cualquier organización.

4. Formar y educar a los equipos sobre los datos

En una encuesta realizada a 9.000 empleados que desempeñaban diversas funciones en una organización, sólo el 21% confiaba en sus conocimientos sobre datos.

La introducción de funciones y responsabilidades en materia de datos puede tener un gran impacto positivo en su empresa, pero aún así, es crucial tener en cuenta que en un lugar de trabajo moderno, cada individuo genera, manipula o trata con datos en sus operaciones diarias. Por ello, tan importante como responsabilizar a determinadas personas de la aplicación de medidas correctoras, es igualmente necesario formar y educar a todos los equipos en el manejo de los datos de la organización.

¿Qué aspecto tiene?

Esto puede implicar la creación de planes de alfabetización de datos y el diseño de cursos que introduzcan a los equipos en los datos de la organización y los expliquen:

  • Lo que contiene,
  • Qué significa cada atributo de los datos,
  • Cuáles son los criterios de aceptabilidad de su calidad,
  • ¿Cuál es la forma correcta e incorrecta de introducir/manipular datos?
  • ¿Qué datos utilizar para conseguir un determinado resultado?

Además, estos cursos pueden crearse en función de la frecuencia con la que determinados roles utilizan los datos (diaria, semanal o anualmente).

¿Cómo ayuda?

La capacidad de leer, comprender y analizar los datos de forma correcta y precisa en todos los niveles permite a cada empleado formular las preguntas adecuadas, y de la forma más optimizada. También garantiza la eficacia operativa de su personal y reduce los errores al comunicar asuntos relacionados con los datos.

5. Supervisar continuamente el estado de los datos mediante la elaboración de perfiles de datos

Lograr la calidad de los datos y mantenerla en el tiempo son dos cosas diferentes. Por eso es necesario aplicar un proceso sistemático que supervise continuamente el estado de los datos y los perfile para descubrir detalles ocultos sobre su estructura y contenido.

El alcance y el proceso de la actividad de elaboración de perfiles de datos pueden establecerse en función de la definición de la calidad de los datos en su empresa y de cómo se mide.

¿Qué aspecto tiene?

Esto puede lograrse configurando y programando informes de perfil de datos diarios/semanales. Además, puede diseñar flujos de trabajo personalizados para alertar a los administradores de datos de su empresa en caso de que la calidad de los datos caiga por debajo de un umbral aceptable.

Un informe sobre el perfil de los datos suele poner de relieve una serie de aspectos sobre los conjuntos de datos examinados, por ejemplo:

  • El porcentaje de valores de datos faltantes e incompletos,
  • El número de registros que son posibles duplicados entre sí,
  • Evaluación de los tipos, tamaños y formatos de los datos para descubrir valores de datos no válidos,
  • Análisis estadístico de columnas de datos numéricos para evaluar las distribuciones.

¿Cómo ayuda?

Esta práctica le ayuda a detectar los errores de datos en una fase temprana del proceso y evita que lleguen a los clientes. Además, puede ayudar a los responsables de datos a estar al tanto de la gestión de la calidad de los datos y a tomar las decisiones correctas, como por ejemplo cuándo y cómo solucionar los problemas que se destacan en los perfiles de datos.

Más información sobre la elaboración de perfiles de datos: Alcance, técnicas y retos.

6. Diseñar y mantener canales de datos para lograr una única fuente de verdad

Una canalización de datos se refiere a un proceso sistemático que ingiere datos desde una fuente, realiza las técnicas de procesamiento y transformación necesarias en los datos y luego los carga en un repositorio de destino.

Es fundamental que los datos brutos pasen por una serie de comprobaciones de validación antes de que puedan considerarse utilizables y ponerse a disposición de todos los usuarios de la organización.

¿Qué aspecto tiene?

Para construir un pipeline de datos, hay que volver a la práctica#02 que mencionamos en este blog: Definir y mantener la definición de la calidad de los datos. Y de acuerdo con esa definición, hay que decidir la lista numerada de operaciones que deben realizarse con los datos entrantes para alcanzar el nivel de calidad definido.

Una lista de ejemplos de operaciones que se pueden realizar dentro de su canalización de datos incluye:

  • Sustituir los valores nulos o vacíos por un término estándar, como «No disponible».
  • Transformar los valores de los datos según el patrón y el formato definidos.
  • Parsear campos en dos o más columnas.
  • Sustituir las abreviaturas por palabras adecuadas.
  • Sustituir los apodos por nombres propios.
  • En caso de que se sospeche que el registro entrante es un posible duplicado, se fusiona con el registro existente, en lugar de crearlo como uno nuevo.

¿Cómo ayuda?

Una canalización de datos actúa como un cortafuegos de calidad de datos para sus conjuntos de datos organizativos. El diseño de una canalización de datos ayuda a garantizar la coherencia de los datos en todas las fuentes y elimina cualquier discrepancia que pueda existir, incluso antes de que los datos se carguen en la fuente de destino.

7. Realizar un análisis de la causa raíz de los errores de calidad de los datos

Hasta ahora, nos hemos centrado sobre todo en cómo hacer un seguimiento de la calidad de los datos y evitar que los errores de calidad de los datos se introduzcan en los conjuntos de datos, pero la verdad es que, a pesar de todos estos esfuerzos, es probable que algunos errores acaben en el sistema. No sólo tendrá que solucionarlos, sino que lo más importante es entender cómo se produjeron esos errores para poder prevenirlos.

¿Qué aspecto tiene?

Un análisis de la causa raíz de los errores de calidad de los datos puede implicar la obtención del último informe sobre el perfil de los datos y la colaboración con su equipo para encontrar respuestas a preguntas como:

  • ¿Qué errores de calidad de datos se han encontrado?
  • ¿De dónde proceden?
  • ¿Cuándo se originaron?
  • ¿Por qué han acabado en el sistema a pesar de todos los controles de validación de la calidad de los datos? ¿Nos hemos perdido algo?
  • ¿Cómo podemos evitar que estos errores vuelvan a aparecer en el sistema?

¿Cómo ayuda?

Llegar al núcleo de los problemas de calidad de los datos puede ayudar a eliminar los errores a largo plazo. No hay que trabajar siempre con un enfoque reactivo y seguir corrigiendo los errores a medida que surgen. Con un enfoque proactivo, puede permitir a sus equipos minimizar sus esfuerzos en la corrección de errores de calidad de datos, y dejar que los procesos refinados de calidad de datos se encarguen del 99% de los problemas asociados a los datos.

8. Utilizar la tecnología para conseguir y mantener la calidad de los datos

Esto nos lleva a nuestra última mejor práctica: utilizar la tecnología para lograr un ciclo de vida de gestión de calidad de datos sostenible. No se promete que ningún proceso funcione bien, ni que ofrezca el mejor rendimiento de la inversión, si no se automatiza y optimiza mediante la tecnología.

¿Qué aspecto tiene?

Invierta en la adopción de un sistema tecnológico que cuente con todas las funcionalidades que necesita para garantizar la calidad de los datos en todos los conjuntos de datos. Estas características incluyen la capacidad de:

  • Importación de datos: Ingesta de datos de múltiples fuentes,
  • Perfil de los datos: Evaluar los datos para generar informes de calidad de datos,
  • Limpieza de datos: Destaca las posibles áreas que requieren limpieza, estandarización y transformación de datos, e implementa correcciones,
  • Cotejo de datos: Haga coincidir los datos utilizando algoritmos de cotejo exactos y difusos con un alto nivel de precisión, así como ajustando los algoritmos según la naturaleza de sus datos,
  • Deduplicación de datos: Vincule los registros y encuentre la única fuente de verdad,
  • Exportación de datos: Exportación/carga de resultados.

Además de las funciones de gestión de la calidad de los datos mencionadas anteriormente, algunas organizaciones invierten en tecnologías que ofrecen también capacidades de gestión centralizada de datos. Un ejemplo de este sistema es la gestión de datos maestros (MDM). Aunque un MDM es una solución completa de gestión de datos que incluye funciones de calidad de datos, no todas las organizaciones necesitan la extensa lista de funciones que conlleva un sistema de este tipo.

Tiene que entender los requisitos de su negocio para evaluar qué tipo de tecnología es la decisión correcta para usted. Puede leer este blog para conocer las principales diferencias entre una solución MDM y DQM.

¿Cómo ayuda?

Son numerosas las ventajas de utilizar la tecnología para la aplicación de procesos que deben repetirse constantemente para lograr resultados duraderos. Proporcionar a su equipo herramientas de gestión de la calidad de los datos de autoservicio puede aumentar la eficiencia operativa, eliminar la duplicación de esfuerzos, mejorar la experiencia del cliente y obtener información empresarial fiable.

Conclusión:

La aplicación de medidas de calidad de datos coherentes, automatizadas y repetibles puede ayudar a su organización a alcanzar y mantener la calidad de los datos en todos los conjuntos de datos.

Data Ladder lleva más de una década ofreciendo soluciones de calidad de datos a sus clientes. DataMatch Enterprise es uno de sus principales productos de calidad de datos -disponible como aplicación independiente y como API integrable- que permite la gestión de la calidad de los datos de principio a fin, incluida la elaboración de perfiles de datos, la limpieza, la correspondencia, la deduplicación y la purga de fusiones.

Puede descargar la versión de prueba gratuita hoy mismo o programar una sesión personalizada con nuestros expertos para entender cómo nuestro producto puede ayudar a implementar las mejores prácticas para alcanzar y mantener la calidad de los datos a nivel empresarial.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.