Limpieza De Datos

Limpieza De Datos

Al revisar la combinación de una o más listas o bases de datos, los duplicados son un problema común, en este artículo se detallan los pasos necesarios para limpiar correctamente el archivo. El propósito de eliminar los registros duplicados es la limpieza de los datos subyacentes conjunto para lograr mejoras en la productividad, ahorrar en los envíos de duplicados, y la satisfacción del cliente. La eliminación de duplicados puede ser una tarea de mucho tiempo y propenso a errores que son la razón por duplicado de eliminación de software es una herramienta esencial para la administración de bases de datos. DataMatch es nuestro producto estrella para eliminar los registros duplicados. Pruebe una versión de prueba gratuita hoy o siga leyendo para obtener las mejores prácticas en combinación y limpieza de bases de datos.

Combinando bases de datos

La fusión de diferentes bases de datos con fuentes diferentes (SQL Server, MySQL,Excel, ODBC, etc) y combinar en una estructura común es el primer paso en el proceso. Por lo general, los duplicados entre bases de datos, pero a veces se duplican dentro de un solo archivo. DataMatchpuede importar, combinar, y exportar a los formatos de las bases de datos más comunes. Además DataMatch puede reconocer campos (columnas) similares de fuentes de datos diferentes entre sí (¿Qué se puede personalizar y sobrescribir)

Duplicado

Un componente clave de la eliminación de duplicados es la definición de lo que es un duplicado. Los siguientes mejores prácticas son fundamentales y están incluidos en DataMatch.

> Identificación de la lógica difusa de los partidos por ciento entre los registros y el establecimiento de límites mínimos partido por ciento por el campo
> Sigla de identificación de la aceptación (Match International Business Machines IBM)
> Limpieza y normalización de datos antes de igualar (Calle de la calle, la eliminación de la sintaxis innecesarias en números de teléfono, etc)
> Aplicación de las bibliotecas de la normalización, especialmente para los nombres de pila (Jon, Jonathan y Juan, etc) DataMatch incluye más de 300.000 las reglas de normalización de los nombres, direcciones, números de teléfono y nombres de compañías.

Supervivencia:

Una de las piezas fundamentales de la eliminación de duplicados es la supervivencia. Si usted tiene los registros duplicados, lo que uno debe permanecer (sobrevivir) y que hay que ir?

DataMatch permite una configuración personalizada para que los datos combinados deben sobrevivir

merge1

En este ejemplo hay dos registros duplicados. Cada uno tiene unos datos ligeramente diferentes en el campo de notas. Es posible que prefiera mantener todos los registros, pero muchas veces un registro maestro único debe ser escogido para mantener la calidad de datos.

Con DataMatch puede elegir qué registro sobrevive por lo que la elección de campo a la fusión, en este caso, número de cliente, y el orden ascendente o descendente. Si ascendiendo el número de cliente en primer lugar tienen prioridad ‘1005643 ‘, si desciende el número de cliente después ‘1106789’ tendrían prioridad. Tenga en cuenta que siempre puede cambiar el disco es un maestro en DataMatch manualmente.

Desafortunadamente normal duplicado rutinas de eliminación de software puede borrar los datos vitales de negocios.

¿Qué pasa si usted quiere mantener las dos piezas de información en el registro maestro de lo mismo?

La mejor solución sería mantener todos los datos que es diferente en un campo nuevo. DataMatch tiene esta capacidad.

merge2

The result would be this

merge3

Tenga en cuenta la información alternativa se refleja en un nuevo campo. El beneficio es un registro maestro único, sin pérdida de datos vitales. (Antiguo número de los clientes mantener para hacer referencia, y los comentarios críticos de los clientes, como el interés en un nuevo producto, mantener)

FreeTrialButton

Pruebe la versión de prueba gratuita en su propio conjunto de datos!

Nota DataMatch no elimina ninguna información de los archivos de origen, toda la información se guarda temporalmente en la memoria donde se pueden probar diferentes ajustes de eliminación de duplicados sin consecuencias. Aunque se puede sobrescribir los archivos fuente original si lo desea.