La calidad nunca es un accidente; siempre es el resultado de una alta intención, un esfuerzo sincero, una dirección inteligente y una ejecución hábil; representa la sabia elección entre muchas alternativas.
El problema más común con el que se enfrentan las empresas es el de la calidad de los datos. Tiene desplegadas las aplicaciones de datos adecuadas, las fuentes capturan el tipo de datos que necesita, hay todo un sistema que utiliza y analiza los datos recogidos y, sin embargo, los resultados son insatisfactorios. Al analizarlos más a fondo, se encuentran diferencias entre las expectativas de datos y la realidad; los conjuntos de datos están llenos de campos en blanco, abreviaturas y formatos incoherentes, patrones no válidos, registros duplicados y otras discrepancias de este tipo.
Para eliminar estos problemas, debe aplicar medidas correctoras que validen y solucionen sistemáticamente los problemas de calidad de los datos. Pero para hacer realidad el sueño de la calidad de los datos, es necesario comprender los fundamentos de la calidad de los datos: su significado, su impacto y cómo planificar su mejora. Por este motivo, compartimos con usted una guía completa que abarca todo lo relacionado con la gestión de la calidad de los datos: qué significa, cómo puede afectar a una empresa, cómo puede gestionarse, qué aspecto tiene en los distintos sectores verticales y mucho más.
Esta guía se divide en tres partes:
- La calidad de los datos: ¿Qué es y por qué es importante?
- Problemas de calidad de datos: ¿Qué son, de dónde vienen y cómo afectan al negocio?
- Gestión de la calidad de los datos: Qué significa, sus pilares y mejores prácticas, y algunos ejemplos del mundo real en varias industrias.
Empecemos.
Calidad de los datos
¿Qué es la calidad de los datos?
El grado en que los datos cumplen con los requisitos de un propósito previsto.
Las organizaciones almacenan, gestionan y utilizan grandes volúmenes de cada día. Si los datos no cumplen su objetivo, se considera que son de mala calidad. Esta definición de la calidad de los datos implica que su significado difiere en función de la organización a la que pertenecen y de la finalidad a la que sirven.
Para algunas empresas, la integridad de los datos puede ser un mejor indicador de la calidad de los mismos que su exactitud.
Esto lleva a las empresas a definir su propio conjunto de características y requisitos para mantener la calidad de los datos en toda la organización. Hay otra forma de definir la calidad de los datos:
El grado en que los datos están libres de defectos intolerables.
Los datos nunca pueden ser cien por cien exactos ni estar libres de defectos. Seguramente tendrá algunos errores y eso es aceptable. Pero tener defectos intolerables en su conjunto de datos -que perjudican la ejecución de procesos críticos- indica una mala calidad de los datos. Hay que asegurarse de que la estructura de datos es la necesaria y su contenido está lo más libre de defectos posible.
¿Por qué es importante la calidad de los datos?
Mantener los datos limpios debe ser un esfuerzo colectivo entre los usuarios de la empresa, el personal de TI y los profesionales de los datos. Pero, a menudo, sólo se percibe como un fallo informático, creyendo que los datos se ensucian cuando algunos procesos técnicos de captura, almacenamiento y transferencia de datos no funcionan correctamente. Aunque este puede ser el caso, los datos necesitan la atención de todo las partes interesadas adecuadas para mantener su calidad a lo largo del tiempo. Por ello, es imprescindible
construir un caso para la calidad de los datos
frente a los responsables de la toma de decisiones necesarios, para que puedan ayudar a habilitarla en todos los departamentos y niveles.
A continuación, hemos enumerado los beneficios más comunes de la calidad de los datos.
01. Toma de decisiones precisas
Los líderes empresariales ya no se basan en suposiciones, sino que sino que utilizan técnicas de inteligencia empresarial para tomar mejores decisiones. Esto es donde
La buena calidad de los datos puede permitir
precisión
a la hora de tomar decisiones
mientras que una mala calidad de los datos puede sesgar los resultados del análisis de los mismos, llevando a las empresas a basar decisiones cruciales en previsiones incorrectas.
02. Eficiencia operativa
Los datos forman parte de todas las pequeñas y grandes operaciones de una empresa. Ya sea el producto, el marketing, las ventas o las finanzas… datos operativos de forma eficiente en todos los ámbitos es la clave. El uso de datos de calidad en estos departamentos puede llevar a su equipo a eliminar la duplicación de esfuerzos, alcanzar resultados precisos rápidamente y ser productivo durante todo el día.
03. Conformidad
Cumplimiento de datos
normas
(como el GDPR, la HIPAA y la CCPA) exigen a las empresas que sigan los principios de minimización de datos, limitación de la finalidad, transparencia, precisión, seguridad, limitación del almacenamiento y responsabilidad.
El cumplimiento de estas normas de calidad de los datos
de los datos
es sólo es posible con datos limpios y fiables.
04. Operaciones financieras
Las empresas incurren en grandes cantidades de
costes financieros debido a la mala calidad de los datos
. Operaciones como la realización de pagos a tiempo, la prevención de incidentes de pagos insuficientes y excesivos, la eliminación de transacciones incorrectas y la evitación de posibilidades de fraude debido a la duplicación de datos sólo son posibles con datos limpios y de alta calidad.
05. Personalización y fidelización de clientes
Ofrecer experiencias personalizadas a los clientes es la única manera de convencerles de que compren a su marca en lugar de a un competidor. Las empresas utilizan una gran cantidad de datos para comprender el comportamiento y las preferencias de los clientes. Con datos precisos, puede descubrir a los compradores relevantes y ofrecerles exactamente lo que buscan, lo que garantiza la fidelidad de los clientes a largo plazo y les hace sentir que su marca les entiende como nadie.
06. Ventaja competitiva
Casi todos los actores del mercado utilizaron los datos para comprender el crecimiento futuro del mercado y las posibles oportunidades de venta adicional y cruzada. Alimentar este análisis con datos de calidad del pasado le ayudará a
construir una ventaja competitiva
en el mercado, convertir más clientes y
crecer
su cuota de mercado.
07. Digitalización
Digitalización de procesos cruciales puede ayudarle a eliminar el esfuerzo manual, acelerar el tiempo de procesamiento y reducir los errores humanos. Pero con la mala calidad de los datos, esas expectativas no pueden cumplirse. Más bien, una mala calidad de los datos le obligará a acabar en un desastre digital en el que la migración y la integración de los datos parecen imposibles debido a las diferentes estructuras de las bases de datos y a los formatos incoherentes.
Problemas de calidad de los datos
Un problema de calidad de datos se define como:
un defecto intolerable en un conjunto de datos, de tal manera que repercute negativamente en la confianza y fiabilidad de los mismos.
Antes de pasar a aplicar medidas correctoras para validar, arreglar y mejorar la calidad de los datos, es imprescindible entender qué es lo que contamina los datos en primer lugar. Por esta razón, vamos a ver primero:
- Los problemas de calidad de datos más comunes presentes en el conjunto de datos de una organización,
- ¿De dónde vienen estos problemas de calidad de datos?
- ¿De qué manera estos problemas de calidad de datos dan lugar a graves peligros para el negocio?
¿Cuáles son los problemas de calidad de datos más comunes?
No. | Data quality issue | Explanation | Example of data quality issue |
---|---|---|---|
1 | Column duplication | Multiple columns are present that have the same logical meaning. | Product category is stored in two columns that logically mean the same: Category and Classification. |
2 | Record duplication | Multiple records are present for the same individual or entity. | Every time a customer interacts with your brand, a new row is created in the database rather than updating the existing one. |
3 | Invalid data | Data values are present in an incorrect format, pattern, data type or size. | Customer Phone Numbers are present in varying formats – some are stored as flat 10 digits, while others have hyphens, some are saved as a string, while others as numbers, and so on. |
4 | Inaccurate data | Data values do not conform to reality. | Customer Name is incorrectly stored: Elizabeth is stored as Aliza, or Matt is stored as Mathew. |
5 | Incorrect formulae | Data values are calculated using incorrect formulae. | Customer Age is calculated from their Date of Birth but the formula used is incorrect. |
6 | Inconsistency | Data values that represent the same information vary across different datasets and sources. | Customer record stored in the CRM represents a different Email Address than the one present in accounts application. |
7 | Missing data | Data is missing or is filled with blank values. | The Job Title of most customers is missing from the dataset. |
8 | Outdated data | Data is not current and represents outdated information. | Customer Mailing Addresses are years old leading to returned packages. |
9 | Unverified domain data | Data does not belong to a range of acceptable values. | Customer Mailing Addresses are years old leading to returned packages. |
¿Cómo entran en el sistema los problemas de calidad de los datos?
Hay múltiples maneras los errores de calidad de los datos pueden acabar en su sistema. Veamos cuáles son.
01. Falta de modelado de datos adecuado
Esta es la primera y más importante razón de los errores en la calidad de los datos. Su equipo de TI no invierte el tiempo o los recursos adecuados al adoptar una nueva tecnología, ya sea una nueva aplicación web, un sistema de base de datos o la integración/migración entre sistemas existentes.
El modelado de datos ayuda a organizar y estructurar sus activos y elementos de datos. Sus modelos de datos pueden ser susceptibles de cualquiera de los siguientes problemas:
a)
Falta de restricciones jerárquicas:
Esto se refiere a cuando no hay relación adecuada restricciones dentro de su modelo de datos. Por ejemplo, tiene un conjunto diferente de campos para Clientes actuales y Nuevos clientes, pero se utiliza un genérico Cliente modelo para ambos, en lugar de tener Clientes actuales y Nuevos clientes como subtipos del supertipo Cliente.
b)
Falta de cardinalidad de la relación:
Esto se refiere a cuando no hay un número definido que represente el número de relaciones que una entidad puede tener con otra. Por ejemplo, una
Pedido
sólo puede tener un
Descuento
a la vez.
c)
Falta de integridad referencial
:
Esto se refiere a cuando un registro en un conjunto de datos se refiere a un registro en otro que no está presente. Por ejemplo, el
Ventas
se refiere a una lista de
IDs de productos
que no están presentes en la tabla
Productos
tabla de Productos.
02. Falta de identificadores únicos
Esto se refiere a cuando no hay manera de identificar un registro de forma única, lo que le lleva a almacenar registros duplicados para la misma entidad. Los registros se identifican de forma exclusiva mediante el almacenamiento de atributos como
Número de la Seguridad Social
para los clientes,
Número de pieza del fabricante
para los productos, etc.
03. Falta de restricciones de validación
Esto se refiere a cuando los valores de los datos no se someten a las comprobaciones de validación necesarias antes de ser almacenados en la base de datos. Por ejemplo, comprobar que no faltan los campos obligatorios, validar el patrón, el tipo de datos, el tamaño y el formato de los valores de los datos, y también asegurarse de que pertenecen a un rango de valores aceptables.
04. Falta de calidad en la integración
Esto se refiere a cuando su empresa tiene una base de datos central que se conecta a múltiples fuentes e integra los datos entrantes para representar una única fuente de información. Si esta configuración carece de un motor central de calidad de datos para limpiar, normalizar y fusionar los datos, puede dar lugar a muchos errores de calidad de datos.
05. Falta de conocimientos sobre datos
A pesar de todos los esfuerzos realizados para proteger los datos y su calidad en todos los conjuntos de datos, la falta de conocimientos sobre los datos en una organización puede seguir causando mucho daño a sus datos. Los empleados suelen almacenar información errónea, ya que no entienden lo que significan ciertos atributos. Además, no son conscientes de las consecuencias de sus acciones, como las implicaciones de actualizar los datos en un determinado sistema o para un determinado registro.
06. Errores en la introducción de datos
Los errores ortográficos o de escritura son una de las fuentes más comunes de errores en la calidad de los datos. Se sabe que los humanos cometen al menos 400 errores al realizar 10.000 entradas de datos. Esto demuestra que incluso con la presencia de identificadores únicos, comprobaciones de validación y restricciones de integridad, existe la posibilidad de que el error humano intervenga y haga que la calidad de los datos se deteriore.
¿Cómo se relacionan los problemas de calidad de los datos con los peligros del negocio?
Para incorporar a los responsables de la toma de decisiones relevantes, es importante educarles en cómo los problemas de calidad de los datos, grandes y pequeños, están afectan a negocio. A
matriz de riesgo empresarial – data flaw
como la que se muestra a continuación, puede ayudarle a hacerlo.
Problem | Issue | Business risk | Quantifier | Cost |
---|---|---|---|---|
This is the data quality problem that resides in your dataset. | These are the various issues that can arise due to the data problem. | This is the impact the issue can have on the business. | This quantifies the impact in terms of a business measure. | This provides a periodic estimated cost incurred due to the business impact. |
Example | ||||
Misspelled customer name and contact information | Duplicate records created for the same customer | Customer service: Increased number of inbound calls | Increased staff time | $30,000.00 worth more staff time required |
Customer service: Decreased customer satisfaction | Order reduction, lost customers | ~500 less orders this year (as compared to estimated) |
Gestión de la calidad de los datos
Tratamos los fundamentos de la calidad de los datos, los problemas de calidad de los datos y su relación con los riesgos empresariales. Ahora es el momento de ver lo que la gestión de la calidad de los datos plan es: cómo puede fijar y gestionar de forma coherente la calidad de los datos a lo largo del tiempo y cosechar todos los beneficios que puede aportar a su empresa. Comencemos.
¿Qué es la gestión de la calidad de los datos?
La gestión de la calidad de los datos se define como: La aplicación de un marco sistemático que perfila continuamente las fuentes de datos, verifica la calidad de la información y ejecuta una serie de procesos para eliminar los errores de calidad de los datos, en un esfuerzo por hacerlos más precisos, correctos, válidos, completos y fiables. Dado que los requisitos y las características de la calidad de los datos son diferentes para cada organización, la gestión de la calidad de los datos también difiere entre las empresas. Los tipos de personas que necesita para gestionar la calidad de los datos, las métricas que necesita para medirla, los procesos de calidad de los datos que necesita implementar… todo depende de múltiples factores, como el tamaño de la empresa, el tamaño del conjunto de datos, las fuentes implicadas, etc. A continuación, analizamos los principales pilares de la implementación y gestión de la calidad de los datos que le darán una buena idea sobre cómo garantizar la calidad de los datos en su empresa para sus requisitos específicos.
¿Cuáles son los 5 pilares de la gestión de la calidad de los datos?
En esta sección, examinamos los pilares más importantes de la gestión de la calidad de los datos: las personas, la medición, los procesos, el marco y la tecnología.
01. Las personas: ¿Quiénes participan en la gestión de la calidad de los datos?
Es una creencia común que, al gestionar la calidad de los datos en toda la organización, hay que obtener la aprobación y el apoyo de los responsables de la toma de decisiones. Pero la verdad es que se necesitan profesionales de los datos nombrados a diferentes niveles de antigüedad para garantizar que sus inversiones en iniciativas de calidad de datos den sus frutos.
A continuación se indican algunas funciones que son responsables, rinden cuentas, consultan o informan sobre el control de la calidad de los datos en una organización:
a) Director de Datos (CDO):
Un Chief Data Officer (CDO) es un cargo de nivel ejecutivo, único responsable de diseñar estrategias que permitan la utilización de los datos, la supervisión de la calidad de los mismos y la gobernanza de los datos en toda la empresa.
b)
Responsable de los datos:
Un administrador de datos es la persona a la que se recurre en una empresa para cualquier asunto relacionado con los datos. Son completamente prácticos en cómo la organización capta los datos, dónde los almacena, qué significa para los distintos departamentos y cómo se mantiene su calidad a lo largo de su ciclo de vida.
c) Custodio de datos:
A
custodio de datos es responsable de la estructura de los campos de datos, incluidas las estructuras y los modelos de las bases de datos.
d)
Analista de datos:
Un analista de datos es alguien capaz de tomar los datos en bruto y convertirlos en ideas significativas, especialmente en dominios específicos. Una parte principal del analista de datos es preparar, limpiar y filtrar los datos necesarios.
e) Otros equipos:
Estos roles se consideran consumidores de datos, lo que significa que utilizan los datos – ya sea en su forma cruda o cuando se convierten en conocimientos procesables, como los equipos de ventas y marketing, los equipos de productos, los equipos de desarrollo de negocios, etc.
Más información
Creación de un equipo de calidad de datos: funciones y responsabilidades a tener en cuenta
.
02. Medición: ¿Cómo se mide la calidad de los datos?
El segundo aspecto más importante de la gestión de la calidad de los datos es su medición. Son características de los datos e indicadores clave de rendimiento que validan la presencia de la calidad de los datos en los conjuntos de datos de las organizaciones. Dependiendo del uso que su empresa haga de los datos, estos KPIs pueden ser diferentes. He enumerado los datos más importantes calidad dimensiones de calidad y la métrica de calidad que representan:
- Exactitud: ¿En qué medida los valores de los datos reflejan la realidad o son correctos?
- Linaje: ¿Cómo de fiable es la fuente de origen de los valores de los datos?
- Semántica: ¿Los valores de los datos son fieles a su significado?
- Estructura: ¿Existen los valores de los datos en el patrón y/o formato correcto?
- Integridad: ¿Son sus datos tan completos como necesita?
- Consistencia: ¿Tienen los almacenes de datos dispares los mismos valores de datos para los mismos registros?
- La moneda: ¿Sus datos son aceptables y están actualizados?
- Puntualidad: ¿Con qué rapidez se facilitan los datos solicitados?
- Razonabilidad: ¿Los valores de los datos tienen el tipo y el tamaño correctos?
- Identificabilidad: ¿Cada registro representa una identidad única y no es un duplicado?
Lea más sobre
Dimensiones de la calidad de los datos: 10 métricas que debería medir
.
03. Proceso: ¿Qué son los procesos de calidad de datos?
Dado que los datos han crecido masivamente en las últimas décadas, se han convertido en multivariables y se miden en múltiples dimensiones. Para buscar, arreglar y mejorar los problemas de calidad de datos, debe implementar una variedad de procesos de calidad de datos, donde cada uno de ellos sirve para un propósito diferente y valioso. Echemos un vistazo a los procesos de calidad de datos más comunes que las empresas utilizan para mejorar la calidad de sus datos.
a) Elaboración de perfiles de datos
Es el proceso de comprender el estado actual de sus datos descubriendo detalles ocultos sobre su estructura y contenido. Un algoritmo de perfilado de datos analiza las columnas del conjunto de datos y calcula las estadísticas de varias dimensiones, como la integridad, la singularidad, la frecuencia, el carácter y el análisis de patrones, etc.
b) Depuración y normalización de datos
Es el proceso de eliminar la información incorrecta e inválida presente en un conjunto de datos para conseguir una visión coherente y utilizable en todas las fuentes de datos. Se trata de eliminar y sustituir los valores incorrectos, analizar las columnas más largas, transformar los casos y patrones de las letras, y fusionar las columnas, etc.
También se conoce como
vinculación de registros
y
resolución de entidades
Es decir, es el proceso de comparar dos o más registros e identificar si pertenecen a la misma entidad. Se trata de mapear las mismas columnas, seleccionando las columnas con las que se va a realizar la coincidencia, ejecutando los algoritmos de coincidencia, analizando las puntuaciones de coincidencia y ajustando los algoritmos de coincidencia para obtener resultados precisos.
Es el proceso de eliminar múltiples registros que pertenecen a la misma entidad y conservar sólo un registro por entidad. Esto incluye el análisis de los registros duplicados en un grupo, marcando los registros que son duplicados y luego eliminándolos del conjunto de datos.
e)
Fusión de datos y supervivencia
Es el proceso de creación de reglas que fusionan los registros duplicados mediante la selección condicional y la sobrescritura. Esto le ayuda a evitar la pérdida de datos y a conservar la máxima información de los duplicados. Se trata de definir reglas de selección y sobrescritura de registros maestros, ejecutarlas y ajustarlas para obtener resultados precisos.
f)
Datos
gobernanza de los datos
El término gobierno de datos suele referirse a un conjunto de funciones, políticas, flujos de trabajo, normas y métricas que garantizan un uso eficiente de los datos y su seguridad, y permiten a una empresa alcanzar sus objetivos empresariales. Implica la creación de roles de datos y la asignación de permisos, el diseño de flujos de trabajo para verificar las actualizaciones de la información, la garantía de que los datos están a salvo de los riesgos de seguridad, etc.
g)
Verificación de la dirección
Es el proceso de cotejar las direcciones con una base de datos autorizada -como la de USPS en EE.UU.- y validar que la dirección es un lugar apto para el envío, exacto y válido dentro del país para entregar el correo.
Lea más sobre los
5 procesos de calidad de datos que hay que conocer antes de diseñar un marco de DQM
.
04. Marco de trabajo: ¿Qué es un marco de calidad de datos?
Aparte de los procesos de calidad de datos, otro aspecto importante a tener en cuenta al diseñar una estrategia de calidad de datos es un de datos. Los procesos representan técnicas independientes utilizadas para eliminar los problemas de calidad de datos de sus conjuntos de datos. Una calidad de datos marco es un proceso sistemático que supervisa sistemáticamente la calidad de los datos, aplica una serie de procesos de calidad de los datos (en un orden definido) y garantiza que no se deterioren por debajo de los umbrales definidos. Ofrece más detalles sobre el flujo del proceso de gestión de la calidad de los datos.
Un marco sencillo de calidad de datos consta de cuatro etapas:
a) Evaluar:
Este es el primer paso del marco en el que hay que evaluar los dos componentes principales: el significado de la calidad de los datos para su empresa y la puntuación de los datos actuales con respecto a ella.
b) Diseño:
El siguiente paso en el marco de la calidad de datos es diseñar las reglas de negocio necesarias, seleccionando los procesos de calidad de datos que necesita y ajustándolos a sus datos, así como decidiendo el diseño arquitectónico de las funciones de calidad de datos.
c)
Ejecutar:
En la tercera etapa del ciclo es donde se produce la ejecución. Has preparado el escenario en los dos pasos anteriores, ahora es el momento de ver el rendimiento real del sistema.
d)
Monitorizar:
Esta es la última etapa del marco en la que se supervisan los resultados. Puede utilizar técnicas avanzadas de perfilado de datos para generar informes detallados de rendimiento.
Más información
Diseño de un marco para la gestión de la calidad de los datos
.
05. Tecnología: ¿Qué son las herramientas de gestión de la calidad de los datos?
A pesar de que la naturaleza de los problemas de calidad de los datos es bastante compleja, muchas empresas siguen validando la calidad de los datos manualmente, lo que da lugar a múltiples errores. Adoptar una solución tecnológica para este problema es la mejor manera de garantizar la productividad de su equipo y la buena implementación de un marco de calidad de datos. Hay muchos proveedores que agrupan las funciones de calidad de datos en diferentes ofertas, como por ejemplo
a)
Calidad de datos autónoma y de autoservicio
software
:
Este tipo de software de gestión de la calidad de los datos le permite ejecutar una serie de procesos de calidad de los datos. Suelen venir con funciones automatizadas de gestión de la calidad de los datos o de procesamiento por lotes para limpiar, cotejar y fusionar grandes cantidades de datos en momentos determinados del día. Es una de las formas más rápidas y seguras de consolidar los registros de datos, sin perder ninguna información importante, ya que todos los procesos se ejecutan sobre una copia de los datos y la vista final de los datos puede transferirse a una fuente de destino.
b)
API o SDK de calidad de datos:
Algunos proveedores exponen las funciones de calidad de datos necesarias a través de
APIs o SDKs
. Esto le ayuda a integrar todas las funciones de gestión de la calidad de los datos en sus aplicaciones existentes en tiempo real o en tiempo de ejecución. Más información API de calidad de datos: Funciones, arquitectura y beneficios.
c)
Calidad de los datos integrada en las herramientas de gestión de datos
Algunos proveedores integran la calidad de los datos
de datos
dentro de
plataformas centralizadas de gestión de datos
para que todo quede en la misma canalización de datos. El diseño de un sistema de gestión de datos integral con una función de calidad de datos integrada requiere una planificación y un análisis detallados, así como la participación de las principales partes interesadas en cada paso del proceso. Estos sistemas suelen estar empaquetados como
gestión de datos maestros
de datos.
¿En qué se diferencia la gestión de la calidad de los datos de la gestión de los datos maestros?
- El término «gestión de datos maestros» se refiere a un conjunto de buenas prácticas para la gestión de datos, que incluye la integración de datos, la calidad de los datos y la gobernanza de los mismos. Esto significa que la calidad de los datos y la gestión de los datos maestros no son opuestos entre sí, sino que son complementarios. Las soluciones MDM contienen algunas capacidades extra además de las funciones de gestión de la calidad de los datos. Esto hace que el MDM sea una solución más compleja y que requiere más recursos para su implantación, algo que hay que tener en cuenta a la hora de elegir entre los dos enfoques.
c)
Soluciones internas a medida
A pesar de las diversas soluciones de calidad de datos y gestión de datos maestros presentes en el mercado, muchas empresas invierten en desarrollar una solución interna para sus necesidades de datos personalizados. Aunque esto pueda parecer muy prometedor, las empresas suelen acabar desperdiciando un gran número de recursos – tiempo y dinero – en este proceso. El desarrollo de una solución de este tipo puede ser más fácil de implementar, pero es casi imposible de mantener en el tiempo.
Para saber más sobre esto, puede leer nuestro libro blanco:
Por qué fracasan los proyectos internos de calidad de datos
.
¿Cuáles son las mejores prácticas para la gestión de la calidad de los datos?
Echemos un rápido vistazo a las mejores prácticas de calidad de datos:
a)
Averiguar la relación entre
los datos y el rendimiento empresarial
y el impacto exacto que tiene la mala calidad de los datos en sus metas y objetivos empresariales.
b)
Medir y mantener la
definición de la calidad de los datos
seleccionando una lista de métricas que le permitan a usted y a sus equipos estar en la misma página sobre la calidad de los datos y lo que significa para su organización.
c)
Establecer
funciones y responsabilidades en materia de datos
en toda la organización para responsabilizar a las personas de la consecución y el mantenimiento de la calidad de los datos, desde los altos cargos hasta el personal operativo.
d)
Formar y educar a los equipos
sobre los activos de datos y sus atributos, cómo manejar los datos y el impacto de sus acciones en todo el ecosistema de datos.
e)
Continuamente
supervisar el estado de los datos
mediante la elaboración de perfiles de datos y
descubrir detalles ocultos sobre su estructura y contenido.
f)
Diseñar y
mantener las canalizaciones de datos
que ejecuten una lista numerada de
operaciones
sobre los datos entrantes para obtener una única fuente de verdad.
g)
Realizar
análisis de la causa raíz
de los errores de calidad de los datos para comprender de dónde proceden los errores de calidad de los datos y solucionar estos problemas en su origen.
h)
Utilizar la tecnología
para
alcanzar
y mantener la calidad de los datos porque
ningún proceso de
proceso promete funcionar bien, y dar el mejor retorno de la inversión, si no se automatiza y optimiza mediante la tecnología.
Si quiere saber más sobre cada una de estas prácticas, lea nuestro blog detallado
8 mejores prácticas para garantizar la calidad de los datos a nivel empresarial
.
Ejemplos reales de gestión de la calidad de los datos
En esta última sección de nuestra guía, veremos algunos casos de uso de la calidad de datos y veremos cómo las marcas de renombre están utilizando
herramientas de limpieza y cotejo de datos
para gestionar la calidad de sus datos y ver lo que tienen que decir al respecto.
01. Gestión de la calidad de los datos en el comercio minorista
La principal ventaja de DataMatch Enterprise™ era la lógica difusa y el cotejo sintético. Era algo que no podía replicar yo mismo.
Marty YantzieGerente de soporte de PC y desarrollo de sistemas, Buckle
Hebilla es una empresa líder en la venta de ropa vaquera, ropa deportiva, ropa exterior, calzado y accesorios, con más de 450 tiendas en 43 estados. Buckle se enfrentaba al reto de clasificar grandes cantidades de registros de datos procedentes de cientos de tiendas. La tarea principal era eliminar toda la información duplicada que se había cargado en su actual sistema iSeries DB2. Buscaban una forma eficaz de eliminar los datos duplicados, que suponían aproximadamente 10 millones de registros.
DataMatch Enterprise™ proporcionó una solución utilizable y más eficiente para Buckle. La empresa pudo pasar un gran número de registros por el
proceso de deduplicación
como un solo proyecto que utiliza una única herramienta de software en lugar de utilizar varios métodos diferentes.
02. Gestión de la calidad de los datos en la sanidad
DataMatch Enterprise ™ fue mucho más fácil de usar que las otras soluciones que analizamos. Poder automatizar la limpieza y el emparejamiento de datos nos ha ahorrado cientos de horas-persona cada año.
Shelley Hahn Desarrollo empresarial, St. John Associates
John Associates ofrece servicios de colocación y reclutamiento en Cardiología, Medicina de Emergencia, Gastroenterología, Cirugía Neurológica, Neurología, Cirugía Ortopédica y otros campos. Con una creciente base de datos de candidatos a la contratación, St. John Associates necesitaba una forma de desduplicar, limpiar y hacer coincidir los registros. Tras varios años realizando esta tarea de forma manual, la empresa decidió que era el momento de implantar una herramienta que redujera el tiempo dedicado a
limpieza de registros
.
Con DataMatch Enterprise, , St. John Associates pudo realizar una operación inicial de limpieza de datos, encontrando, fusionar y purgar cientos de miles de registros en un corto período de tiempo. DataMatch™ ayudó a acelerar el proceso de deduplicación a través de algoritmos de coincidencia difusa y facilitó la clasificación de los campos de datos para encontrar información nula. También ha eliminado la necesidad de introducir datos manualmente, permitiendo a los usuarios exportar los cambios y cargarlos cuando sea necesario.
03. Gestión de la calidad de los datos en los servicios financieros
La herramienta paso a paso y en forma de asistente que le guía a través del proceso de creación de un proyecto. Es muy intuitivo y nos ha permitido construir todo tipo de proyectos e introducir todo tipo de fuentes de datos. Una de las razones por las que elegimos DL fue porque existe una función de importación a DB2 que nos permite entrar directamente en nuestra base de datos DB2. La interfaz nos permitió obtener buenos resultados y es muy sencilla de utilizar.
Scott FordArquitecto de soluciones informáticas, Bell Bank
Banco Bell es uno de los mayores bancos de propiedad independiente del país, con activos de más de 6.000 millones de dólares y negocios en los 50 estados. Como gran banco privado, Bell Bank trata con muchos socios proveedores y docenas de líneas de servicio, desde hipotecas a seguros, desde jubilación a gestión de patrimonios y muchos más. Con la información aislada y almacenada en
fuentes de datos dispares
el banco se encontró con la dificultad de obtener una visión única y consolidada de sus clientes; por no mencionar que también estaban incurriendo en gastos innecesarios como resultado del envío de múltiples correos a un proveedor o cliente.
DataMatch Enterprise es una parte fundamental de la solución de gestión de datos interna del banco solución de gestión de datos, lo que les permite agrupar fácilmente los resultados y devolver la lista de registros de todos los registros de clientes que se cree que son de una entidad. Este
visión consolidada
ayudará al banco a comprender realmente la asociación de sus clientes con el banco y los pasos que puede dar para reforzar esta asociación.
04. Gestión de la calidad de los datos en ventas y marketing
DataMatch™ me facilita mucho la tarea de hacer coincidir columnas en Excel. La razón por la que me hice con el software fue para cotejar los vehículos vendidos con los clientes potenciales que estamos trabajando.
Matt GriffinVicepresidente de Operaciones, TurnKey Auto Events
TurnKey Auto Events realiza campañas de compra de coches de gran volumen para concesionarios de automóviles de todo el país. Producen eventos que obligan a los compradores de automóviles a asistir y adquirir vehículos. Como proveedor de servicios que proporciona oportunidades de venta a los vendedores de automóviles, TurnKey Marketing quería recibir crédito por las ventas adicionales conseguidas con los distintos concesionarios con los que se asocian.
Al ser capaces de emparejar las ventas con la multitud de clientes potenciales con los que hablan a diario, reciben crédito de ventas (y ganan dinero) por cada cliente potencial. Mediante el uso de DataMatch™, el sofisticado sistema de Data Ladder comparación de datos producto, la empresa pudo cotejar los registros de varias fuentes. A partir de ahí, pudieron crear una vista de pájaro de una posible venta de coches a lo largo del tiempo.
05. Gestión de la calidad de los datos en la educación
La idea de vincular dos grupos de registros fue abrumadora para el departamento de investigación. El proceso llevaría mucho tiempo y pondría en peligro la puntualidad y el proceso de las actividades de investigación
Universidad de Virginia Occidental
Universidad de Virginia Occidental es la única universidad estatal de investigación, que otorga títulos de doctorado y otorga tierras. La escuela ofrece cerca de 200 programas de licenciatura, posgrado, doctorado y profesional. Se les encomendó la tarea de evaluar las repercusiones a largo plazo de determinadas afecciones médicas en los pacientes durante un largo periodo de tiempo. Los datos de las condiciones médicas y los registros sanitarios actuales proporcionados por el Estado existen en sistemas separados.
Gracias a DataMatch™, el producto estrella de Data Ladder para la limpieza de datos, la universidad pudo limpiar los registros de varios sistemas que contienen la información requerida. A partir de ahí pudieron crear una visión unificada del paciente a lo largo del tiempo.
La última palabra
Los líderes empresariales comprenden la importancia de los datos: desde las operaciones rutinarias hasta la inteligencia empresarial avanzada, se utilizan en todas partes. Sin embargo, la mayoría de los equipos que trabajan con datos invierten horas extra debido a la duplicación del trabajo, la falta de conocimiento de los datos y los resultados erróneos. Y todos estos problemas surgen debido a una mala o nula gestión de la calidad de los datos.
Invertir en herramientas de calidad de datos, como
DataMatch Enterprise
le ayudará sin duda a iniciarse en la gestión de la calidad de los datos. DataMatch le guiará a través de las diferentes etapas de la limpieza de datos y el cotejo. Empezando por la importación de datos de varias fuentes, le guía a través de
perfil de datos
,
limpieza
,
estandarización
y
deduplicación
. Además, su
verificación de direcciones
le ayuda a verificar las direcciones con la base de datos oficial de USPS.
DataMatch también ofrece funciones de programación para el procesamiento por lotes de registros o puede utilizar su API para integrar las funciones de limpieza de datos o cotejo en aplicaciones personalizadas y obtener resultados instantáneos.
Reserve una demostración hoy mismo o descargue una prueba gratuita para saber más sobre cómo podemos ayudarle a sacar el máximo partido a sus datos.