Blog

Deduplicación de datos para agencias gubernamentales: Riesgos y soluciones

Para la mayoría de las empresas, las entradas duplicadas pueden ser una señal de advertencia de posibles objetivos de ingresos no alcanzados, de una percepción negativa de la marca y de una mala respuesta de la campaña. Sin embargo, para los organismos públicos puede significar la incapacidad de gestionar la creciente presión sobre las máquinas virtuales o el hardware de almacenamiento y las iniciativas de recuperación de desastres y copias de seguridad que, de otro modo, podrían suponer importantes pérdidas económicas.

La deduplicación, por este motivo, es fundamental no sólo para soportar los crecientes volúmenes de información del sector público, sino también para permitir a los organismos lograr una rentabilidad que permita mantener las operaciones cotidianas.

En este post, veremos el problema de los datos duplicados y cómo se puede utilizar un software de deduplicación para resolverlo.

¿Qué significa la deduplicación de datos para las instituciones públicas?

La deduplicación de datos se refiere al proceso de eliminación de copias duplicadas y redundantes de registros únicos para minimizar el espacio de almacenamiento y conciliar los registros conflictivos. La deduplicación de datos ayuda a las organizaciones a asegurarse de que sólo tienen un registro maestro o un valor para procesar, lo que reduce su huella de datos y, en última instancia, los costes de almacenamiento.

Mediante la deduplicación, las empresas pueden identificar y deduplicar todos los valores repetidos de fuentes de datos dispares y múltiples, como bases de datos, Excel, aplicaciones web e incluso API. Para más información, consulte la guía de deduplicación de datos.

¿Por qué es fundamental la calidad de los datos para las agencias?

La calidad de los datos es de vital importancia para las agencias federales debido a la Ley de Calidad de Datos (DQA ) que entró en vigor en 2000. Los sucesivos gobiernos han intensificado las normas de calidad junto con otros mandatos, como la Iniciativa de Gobierno Abierto y la Iniciativa de Optimización de los Centros de Datos, para garantizar que los datos que se comparten y difunden son precisos.

La DQA exige que los datos de cualquier agencia federal se ajusten a las normas de calidad más estrictas y cumplan las tres directrices siguientes:

  • Utilidad: la información compartida o difundida es útil y relevante para el usuario final.
  • Integridad: la información no se comparte sin autorización y no se corrompe o falsifica.
  • Objetividad: la información presentada debe ser precisa, completa y fiable para el usuario final.

Además, disponer de datos limpios y precisos es fundamental para alcanzar diversos objetivos empresariales. Por ejemplo:

  • Unos datos transparentes y fiables pueden evitar que los organismos realicen pagos indebidos a los contratistas
  • Las agencias encargadas de la regulación pueden aplicar mejor la normativa al disponer de datos actualizados y sin duplicados.
  • La financiación y la asignación de subvenciones también pueden ser más ágiles con procesos eficientes de resolución de entidades y vinculación de registros

Por estas razones, los organismos federales deben asegurarse de que sus datos no contengan errores, incluidos los valores duplicados, para poder cumplir las directrices.

Consecuencias de los datos duplicados

Aunque las medidas legislativas pueden empujar a los organismos a adoptar medidas más estrictas de mejora de los datos, conseguirlo puede ser un gran reto; la presencia de sistemas heredados, fuentes de datos dispares e información aislada puede hacer que se acumulen registros duplicados.

He aquí algunos de los retos que pueden crear los datos duplicados si no se abordan:

  • Mayores costes de almacenamiento: las entradas duplicadas aumentan la huella de datos en los sistemas, lo que incrementa las necesidades de capacidad de almacenamiento. Esto puede llevar a las agencias a comprar hardware adicional que puede disparar los gastos generales.
  • Aumenta los requisitos de capacidad de las copias de seguridad: tener más copias de registros únicos supone una mayor presión sobre las ventanas de copia de seguridad. Esto puede ralentizar la velocidad de recuperación de los registros, lo que también puede suponer una carga para las máquinas virtuales.
  • Mayor exposición a las catástrofes: dado que las agencias tendrán más registros redundantes y repetidos que procesar, crear copias de seguridad rápidamente se convertirá en un reto, exponiéndolas efectivamente a un ataque DDoS, a cortes en el centro de datos y a fallos de hardware, entre otros.
  • Aumento de la duración del ciclo: un mayor número de registros puede provocar un aumento del ancho de banda, ya que se transmitirán más datos a lo largo de la red, lo que puede aumentar el tiempo necesario para procesar los registros y conservar los datos.
  • Mala gestión de los fondos: sin datos precisos, las agencias pueden carecer de una visión adecuada de los datos financieros y contables reales y dar lugar a pagos excesivos a los contratistas, a la presentación de informes insuficientes o excesivos y a retrasos en los cobros a los deudores.

¿Cómo resuelve un software de deduplicación los problemas de duplicación?

Según CTOLabs.com casi 9 de cada 10 agencias federales consideraron la deduplicación de datos como una prioridad alta y la retención y recuperación de datos fueron las mayores preocupaciones.

Un software de deduplicación puede actuar como una poderosa herramienta para ayudar a las organizaciones a minimizar los requisitos de capacidad de almacenamiento al minimizar o eliminar los registros redundantes y conciliar las identidades conflictivas.

Con el marco, la estrategia y la hoja de ruta adecuados, un software de deduplicación puede permitir a las agencias conseguir lo siguiente

  • Identificar y corregir los registros erróneos: las sofisticadas funciones de perfilado, limpieza y normalización de datos pueden permitir a los organismos localizar tanto los duplicados como los faltantes,
  • Eliminar los duplicados en varios sistemas: cuando se gestionan datos en distintas fuentes, es posible que los registros duplicados y redundantes se cuelen en otras fuentes. Así, las herramientas de deduplicación pueden conectarse a varios sistemas de origen y garantizar que cualquier proceso de deduplicación sea lo suficientemente exhaustivo como para incluir todas las fuentes posibles.
  • Ahorro de tiempo: la búsqueda y eliminación de registros duplicados puede ser un proceso minuciosamente largo de varios días. Sin embargo, un software dedicado a la deduplicación puede encontrar los valores repetidos de los registros y eliminarlos en tan sólo unas horas.

Ejemplo de deduplicación en una agencia federal

El Departamento de Justicia (DOJ) recibe y tramita miles de solicitudes de la FOIA, cada una de las cuales tiene que ser debidamente interpretada, comunicada al solicitante e investigada a fondo. Utilizando un software de deduplicación, la agencia pudo reducir un campo de 4 millones a 3 millones de registros, que se redujeron aún más a 4.000 registros tras el filtrado. Toda la actividad de deduplicación duró sólo cuatro horas, lo que de otro modo habría llevado varias semanas si se hubiera hecho manualmente.

Deducción de registros con DataMatch Enterprise

DataMatch Enterprise (DME ) de Data Ladder es una herramienta de concordancia y deduplicación de uso industrial diseñada para conciliar entidades no resueltas y deduplicar registros redundantes y repetidos para ayudar a los organismos a reducir considerablemente su huella de datos.

Para obtener más información sobre el uso del ISD como software de deduplicación para encontrar y eliminar duplicados, no dude en ponerse en contacto con nosotros hoy mismo.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.