Blog

Técnicas de limpieza de datos para las redundancias

El tratamiento de los datos duplicados requiere una estrategia para tratar los datos incoherentes. El primer paso sería normalizar las direcciones con un software de cotejo de datos. En segundo lugar, asegúrese de que utiliza programas de entrada de datos que validan los formatos de los campos, lo que evita errores, como la introducción de nombres en un campo de número de teléfono. Es fundamental encontrar todos los registros que contienen exactamente o aproximadamente los mismos datos en uno o más campos. Revise el siguiente ejemplo de cinco registros que contienen seis campos en cada registro:
Nombre Dirección Ciudad ZIP® Teléfono
—— —————– ———— — ———- ————–
1 DAVIS 115 E 1ST ST CLEBURNE TX 76031-2407 (817) 458 9992
2 DAVIS 1 115 ST EAST CLEBURNE TX 76031
3 DAVIS 1 EAST 15TH CLEBURNE DR TX 817-458-9992
4 DAVIS 1 E FIFTEENTH ST CLEBURNE TX 76031 458-9992
5 DAVIS ONE EAST 15TH ST CLEBURNE TX 76031 817-458-9991

Verá que los cinco registros anteriores se refieren a la misma persona en la misma dirección; no hay dos registros exactamente iguales. A continuación, considere los posibles intentos de localizar duplicados en el archivo:
BROWSE 1: Selecciona los registros con el mismo campo de dirección. No encuentra ninguno de los registros anteriores.
BROWSE 2: Selecciona los registros con el mismo nombre y el mismo código postal de cinco dígitos. Falta los registros 1, 3 y 5.
BROWSE 3: Seleccione los registros con el nombre «DAVIS». No se encuentran los registros 2 y 3 (aunque probablemente coincidan con muchos otros DAVIS en otras direcciones).
Después de completar una corrección de dirección y una validación de campo, las muestras mencionadas anteriormente se convierten en:
Nombre Dirección Ciudad C.P. Teléfono
—– ———– ——- — ———- ————
1 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
2 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407
3 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
4 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 XXX-458-9992
5 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992

Una vez que haya completado la normalización, los intentos de detección de duplicados mejorarán considerablemente y tendrán más posibilidades de encontrar el grupo correcto de duplicados. Seleccionando «registros con la misma dirección, ZIP, y «nombre soundex» es un intento que funciona perfectamente en el ejemplo anterior.

Al iniciar su viaje para abordar las redundancias y duplicaciones, Data Ladder es su socio y experto analítico. Podemos aportar sencillez y claridad a un proyecto que, de otro modo, sería confuso y complicado. Confíe en que Data Ladder le ayudará a resolver sus problemas de calidad de datos y a mejorar de forma medible la calidad y el rendimiento financiero. Póngase en contacto con nosotros para obtener más información y una prueba gratuita.

In this blog, you will find:

Try data matching today

No credit card required

"*" señala los campos obligatorios

Hidden
Este campo es un campo de validación y debe quedar sin cambios.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

¡Vaya! No hemos podido localizar tu formulario.