Blog

Techniques d’épuration des données pour les redondances

Le traitement des données dupliquées nécessite une stratégie pour traiter les données incohérentes. La première étape consisterait à normaliser les adresses à l’aide d’un logiciel de rapprochement des données. Deuxièmement, assurez-vous d’utiliser des programmes de saisie de données qui valident les formats des champs, afin d’éviter les erreurs, comme la saisie de noms dans un champ de numéro de téléphone. Il est essentiel de trouver tous les enregistrements qui contiennent exactement ou approximativement les mêmes données dans un ou plusieurs champs. Examinez l’échantillon ci-dessous de cinq enregistrements contenant six champs dans chaque enregistrement :
Nom Adresse Ville St ZIP® Téléphone
—— —————– ———— — ———- ————–
1 DAVIS 115 E 1ST ST CLEBURNE TX 76031-2407 (817) 458 9992
2 DAVIS 1 115 ST EAST CLEBURNE TX 76031
3 DAVIS 1 EAST 15TH CLEBURNE DR TX 817-458-9992
4 DAVIS 1 E FIFTEENTH ST CLEBURNE TX 76031 458-9992
5 DAVIS ONE EAST 15TH ST CLEBURNE TX 76031 817-458-9991

Vous verrez que les cinq enregistrements ci-dessus concernent la même personne à la même adresse ; il n’y a pas deux enregistrements exactement identiques. Envisagez ensuite les tentatives possibles pour localiser les doublons dans le fichier :
BROWSE 1: Sélectionnez les enregistrements ayant le même champ d’adresse. Ne trouve aucun des documents susmentionnés.
BROWSE 2: Sélectionnez les enregistrements ayant le même nom et le même code postal à cinq chiffres. Manque les enregistrements 1, 3 et 5.
BROWSE 3: Sélectionnez les enregistrements portant le nom « DAVIS ». Manque les enregistrements 2 et 3 (tout en correspondant probablement à beaucoup d’autres DAVIS à d’autres adresses).
Après avoir effectué une correction d’adresse et une validation sur le terrain, les échantillons énumérés ci-dessus deviennent :
Nom Adresse Ville St ZIP Téléphone
—– ———– ——- — ———- ————
1 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
2 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407
3 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992
4 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 XXX-458-9992
5 DAVIS 115 E1ST ST CLEBURNE TX 76031-2407 817-458-9992

Une fois la normalisation terminée, les tentatives de détection des doublons seront grandement améliorées et auront plus de chances de trouver le bon groupe de doublons. En sélectionnant « les enregistrements ayant la même adresse, le même code postal et le même nom soundex », on obtient un résultat parfait dans l’exemple ci-dessus.

Data Ladder est votre partenaire et votre expert en analyse pour vous aider à résoudre les problèmes de redondance et de duplication. Nous pouvons apporter simplicité et clarté à un projet autrement embrouillé et compliqué. Ayez confiance que Data Ladder vous aidera à résoudre vos problèmes de qualité de données et à améliorer de façon mesurable la qualité et les performances financières. Contactez-nous pour plus d’informations et pour obtenir votre essai gratuit.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.