Blog

Votre guide complet des logiciels et approches de mise en correspondance des listes

La plupart des entreprises comprennent aujourd’hui que de nouvelles technologies et applications doivent être mises en œuvre pour améliorer les opérations commerciales. Mais la mise en œuvre de la migration des données d’un ancien système vers un nouveau système présente un défi majeur en matière de qualité des données. À moins que l’organisation n’utilise activement des solutions telles qu’un logiciel de comparaison de listes ou une solution de nettoyage des données, il y a de fortes chances que les données soient imparfaites, corrompues et erronées.

Il est donc essentiel pour une organisation d’investir dans des solutions de nettoyage des données avant de mettre en œuvre tout plan de migration. L’objectif fondamental est de dériver des données exploitables à partir d’années de données périmées. Pour rendre cela possible, vous avez deux choix essentiels : investir dans des spécialistes des données ou dans des solutions de qualité des données.

La question est de savoir si vous devez engager une équipe ou utiliser une solution logicielle.

Dans ce guide, nous vous aiderons à voir les deux côtés de la médaille afin que vous puissiez prendre une meilleure décision. Nous aborderons des sujets importants comme :

  • Le coût d’une mauvaise qualité des données
  • Problèmes courants liés à la qualité des données et des listes
  • Approches des problèmes de qualité des données
  • Caractéristiques principales d’un logiciel de mise en correspondance des listes
  • Étude de cas Amec Foster Wheeler

Commençons.

Le coût d’une mauvaise qualité des données

Les données de mauvaise qualité sont celles qui comportent des doublons, des noms mal assortis, des abréviations, des données non standardisées (NY vs NYC vs New York vs New York City), des codes postaux incomplets, des adresses électroniques, etc.

Le coût de la mauvaise qualité des données est stupéfiant.
On estime à 3,1 trillions de dollars les
3,1 trillions de dollars de pertes annuelles aux États-Unis dues à la mauvaise qualité des données.

Prenons l’exemple de l’entreprise A, un fournisseur d’équipements de construction à grande échelle qui possède plusieurs silos de données. Leur objectif à l’horizon 2020 est de transférer leur ancien système vers un nouveau système en nuage et de rationaliser les processus opérationnels.

Ils étaient conscients des défis posés par la qualité de leurs données – au fil des ans, les données ont été enregistrées par de multiples départements via de multiples outils. En l’absence de normalisation ou de système centralisé de gestion des données, l’entreprise devait relever un défi de taille en matière de nettoyage des données.

La première étape de tout processus de nettoyage des données consiste à effectuer une analyse des listes de données et à identifier les principaux problèmes. L’accent est mis sur les listes, car les solutions de comparaison de données fonctionnent en comparant des listes d’enregistrements. L’objectif principal est de supprimer les doublons, les données nulles ou incomplètes afin de garantir que l’entreprise dispose de données exactes lors du passage au nouveau système.

Problèmes courants liés à la qualité des listes de données

Les tables de base de données affichent les enregistrements sous forme de listes. Si l’on reprend l’exemple de l’entreprise A, il y a de fortes chances qu’il existe des listes répétées ou dupliquées, ou des listes contenant des informations inexactes ou incohérentes.

Il est évident qu’en l’absence de normes ou de systèmes établis, les représentants commerciaux ont mis à jour leurs listes sans se soucier de la qualité des informations. Les noms peuvent être abrégés, les informations de facturation peuvent avoir des normes différentes, les adresses peuvent ne pas avoir été mises à jour, sont quelques-uns des problèmes les plus courants avec les listes de données.

Examinons chacune de ces questions en détail.

Duplication de liste : Cela se produit souvent lorsque les données d’un client sont enregistrées deux fois sous une adresse électronique différente ou une variante de nom. Il est également tout à fait possible que le même client porte deux noms différents (c’est généralement le cas lors d’un changement de nom après un mariage) et qu’il saisisse des informations contradictoires dans un formulaire ou dans un élément de facturation. Si le jeton [name] est utilisé comme identifiant unique dans une base de données, l’information est enregistrée deux fois.

Incohérence des données : Il s’agit d’un problème récurrent dans la plupart des bases de données, qui est extrêmement difficile à résoudre. Si l’erreur humaine est à l’origine de la plupart des incohérences de données, la plupart du temps, c ‘est le manque de normalisation des données qui est à l’origine de ces incohérences. Les problèmes liés aux variations de noms comme Cath vs Catherine ou Carl vs Karl, les problèmes liés aux variations de noms de villes comme NYC vs NY ne sont pas des erreurs humaines, mais plutôt des variations que les bases de données modernes doivent traiter en mettant en œuvre la normalisation.

Données disparates : Dans les bases de données, les données disparates désignent les données non structurées ou les données qui sont nettement différentes en termes de type, de qualité et de caractère. Les données des compagnies aériennes en sont un bon exemple : un client est représenté par plusieurs points de données tels que le numéro de passeport, l’identifiant de la réservation, l’identifiant du client et son nom, tous stockés dans plusieurs bases de données. La base de données de réservation peut contenir différentes données. Le système de billetterie du service clientèle peut contenir différentes données. Le système de support client peut contenir différentes données. Si ces bases de données ne partagent pas les informations collectivement, il y a un problème important de qualité des données. Toute cette disparité dans les données rend difficile la création d’une liste unique consolidée qui pourrait s’avérer nécessaire si la compagnie aérienne souhaite étudier le comportement de ses consommateurs.

Plus votre base de données est importante et complexe, plus les risques de corruption ou d’erreur sont élevés.

Approches des problèmes de qualité des données

Il existe deux approches pour résoudre les problèmes de qualité des données : soit engager une équipe, soit investir dans une solution logicielle. La plupart des entreprises préfèrent développer une solution interne de nettoyage des données en employant des spécialistes ou en chargeant leur équipe informatique de faire le nécessaire, pour finalement être déçues par les retards et les coûts associés à l’investissement dans les personnes, les systèmes et les ressources.

En revanche, l’investissement dans un logiciel offre plus de souplesse, permet d’effectuer le travail plus rapidement et coûte nettement moins cher. Le seul problème ? Vous devez chercher, explorer et découvrir une solution parmi la multitude d’options qui correspond le mieux aux besoins de votre entreprise.

1. L’approche consistant à « embaucher une équipe pour le faire » :

Il est évident que toute organisation, quelle que soit sa taille, dispose d’une équipe informatique dédiée. L’optimisation de la qualité des données n’a rien de sorcier, mais c’est le genre de travail auquel les équipes informatiques des entreprises n’ont guère le temps de s’atteler.

Le résultat ? Lorsque les analystes ou les spécialistes des données sont appelés à donner un sens aux données, ils se voient présenter des listes périmées, incomplètes ou incohérentes.

Vous devez ensuite engager des membres supplémentaires de l’équipe pour créer des algorithmes afin de donner un sens aux données. Même dans ce cas, vous n’obtiendrez pas des résultats précis et exacts.

Au milieu de tout cela, vous dépensez des centaines de milliers de dollars pour recruter de nouveaux membres, mettre en œuvre de nouveaux processus et perdre des mois, voire des années, pour vous assurer que tout est en ordre.

Voici la répartition des coûts.

C’est le coût prévu au cas où vous abandonneriez le projet dans un an. La plupart des entreprises épuisent leur budget dans les six mois. À long terme, vous n’économisez pas vraiment d’argent. En plus de cela, vous faites des compromis sur la précision.

2. L’approche logicielle

La plupart des organisations se sont rendu compte qu’engager une équipe pour trier leur base de données est une approche coûteuse et contre-productive.

L’autre option consiste à investir dans des solutions logicielles, dont il existe plusieurs types. Il y a Les meilleures solutions de leur catégorie Les solutions d’IBM, de SAS, d’Informatica et d’Oracle sont adaptées aux données d’entreprise, mais vous avez besoin de spécialistes formés pour exploiter chacune de ces solutions.

Il existe ensuite des solutions de premier plan telles que Talend, Attaccama, Informatica, qui disposent d’une gamme de produits permettant l’ingénierie des données, l’intégration du cloud, la sécurité des données et bien plus encore. Ces solutions sont conçues pour les grandes entreprises qui veulent une solution de données complète.

Enfin, vous disposez d’un logiciel de jumelage de listes de niveau intermédiaire, de type bricolage, qui utilise des méthodes de logique floue (mise en correspondance de chaînes de motifs similaires) pour identifier et supprimer les doublons. À long terme, cependant, il vous faut plus qu’une simple correspondance floue pour nettoyer vos données.

Caractéristiques principales d’un logiciel de mise en correspondance des listes

Avec autant de choix, comment déterminer la solution logicielle qui vous convient le mieux ?

Pour répondre à cette question, vous devez savoir quelles sont les principales caractéristiques requises d’un logiciel de nettoyage des données ou de rapprochement des listes et comment ces caractéristiques peuvent vous aider à atteindre les différents aspects de vos objectifs de rapprochement et de nettoyage des données.

Profilage des données

Leprofilage des données est le processus qui consiste à examiner l’exactitude, l’exhaustivité et la validité de vos données. Un bon logiciel de rapprochement de listes vous permet de profiler vos données avant de migrer d’un ancien système vers un nouveau. Pendant la phase de profilage, vos données seront triées pour détecter les valeurs vides ou nulles, les modèles anormaux et la duplication des données. Pour les systèmes patrimoniaux comportant des années de données et des milliers d’erreurs, le profilage des données est une nécessité. Il permet d’identifier les problèmes de qualité des données au niveau de la source, ce qui vous fait gagner du temps à un stade ultérieur.

Étiquetage sémantique

Lorsque les données proviennent de différentes sources, il est souvent difficile de donner un sens à tous les champs qui contiennent des informations identifiables. Par exemple, les dates de naissance sont souvent enregistrées sous le champ Date. Il n’est pas clair s’il s’agit d’une date de naissance ou d’une date d’événement. Une balise sémantique « date de naissance » est appliquée au champ « date », ce qui facilite ensuite le processus de résolution d’identité.

Les informations d’identification personnelle peuvent être le prénom, le nom de famille, les adresses électroniques, les adresses de facturation, etc. L’objectif du balisage sémantique est de donner un sens aux données et d’accélérer le processus de nettoyage des données.

Nettoyage des données

Une fois que les champs ont été étiquetés, le processus suivant est la partie normalisation et nettoyage des données. Cela signifie que si vous avez des champs qui ne sont pas normalisés, ils sont normalisés. Ainsi, par exemple, l’adresse 47 W. 13th St. NY, US est normalisée en ’47 W 13th STREET, New York, USA’.

Au cours du processus de nettoyage des données, les données non sollicitées ou incomplètes sont marquées comme non disponibles, nulles ou rejetées, afin de garantir que les données erronées sont triées et nettoyées dès le début.

Correspondant

La concordance est la fonction la plus importante du processus de résolution d’identité. Presque toutes les solutions de données haut de gamme proposent le rapprochement des données comme service de base. C’est le processus au cours duquel le logiciel compare les enregistrements et établit des liens. Trois processus principaux sont utilisés pour effectuer cette opération sur les données de l’entreprise.

    • Blocage : Lors d’une activité de mise en correspondance, des millions d’enregistrements doivent être mis en correspondance et comparés les uns aux autres. Ainsi, si vous disposez d’un ensemble de données contenant disons un million d’enregistrements, vous devrez comparer 1 million x 1 million d’enregistrements. Il s’agit d’un processus extrêmement inefficace et lent, pour ne pas dire prohibitif sur le plan informatique. Pour comparer ces enregistrements, une simple règle de blocage est utilisée pour diviser l’ensemble des enregistrements en plus petits « blocs » qui sont comparés les uns aux autres. Les blocs sont des paires d’enregistrements qui ont plus de chances de correspondre. Par exemple, les dates de naissance peuvent être séparées en différents blocs tels que BirthYear, BirthMonth et BirthDay. Les trois colonnes peuvent être utilisées en même temps pour traiter votre premier bloc de correspondance.
    • Comparaison par paires et notation : Cette méthode permet de comparer des ensembles de données à l’intérieur d’un bloc. Par exemple, vous pouvez comparer un bloc Date de naissance avec un bloc Nom pour voir si deux des blocs représentent une correspondance.
  • Regroupement : Aspect nécessaire de la mise en correspondance des données, le regroupement produit des résultats de correspondance plus rapides en manipulant une ou plusieurs valeurs d’identification dans l’ensemble de données et en les regroupant par rapport aux valeurs d’identification. Par exemple, les noms se terminant par « Smith » peuvent être regroupés dans un seul groupe, qui est ensuite examiné pour voir s’il y a des correspondances contradictoires. Les enregistrements de différents clusters ne seront pas comparés entre eux et les clusters contenant un seul enregistrement ne seront pas utilisés pour la comparaison.

Normalisation des données

Une fois que vous avez trié vos données, l’étape suivante consiste à nettoyer votre liste. Pour ce faire, les entrées en double sont supprimées, les données nulles ou incomplètes sont filtrées et les listes sont nettoyées pour garantir la propreté des données.

À la fin du processus, les données sont validées, et les versions finales sont communiquées aux différents départements de l’organisation. C’est ici que vous devrez mettre en œuvre la normalisation des données, ce qui signifie que toutes vos données doivent être stockées dans un format commun. Le personnel concerné ou les personnes qui traitent les données doivent être formés à la normalisation.

L’objectif de la collecte de données n’est pas la quantité mais la qualité. Vous ne voulez pas une centaine d’adresses électroniques – vous voulez une centaine d’adresses électroniques précises, complètes et utilisables. Dans le monde réel, il y aura 28 adresses sur 100 qui seront invalides ou inutiles.

Lenettoyage et la normalisation desdonnées vous permettent donc de disposer de données avec lesquelles vous pouvez travailler et de données auxquelles vous pouvez faire confiance.

Caractéristiques supplémentaires d’un logiciel de mise en correspondance des listes de premier ordre

En outre, voici quelques caractéristiques importantes qu’un bon logiciel de rapprochement de listes doit posséder :

Rapide : Le but de l’utilisation d’un logiciel de nettoyage de listes est d’obtenir des résultats aussi rapidement que possible. Les organisations n’ont pas le privilège d’attendre des mois ou des années pour obtenir des informations spécifiques – si elles ont besoin de l’historique des ventes d’une nouvelle succursale, elles en ont besoin rapidement. Le logiciel peut vous fournir ces informations en quelques minutes, alors qu’une équipe passerait des heures, voire des jours, à utiliser de multiples requêtes pour obtenir les données dont vous avez besoin instantanément.

Précis : L’exactitude est un point essentiel de la gestion de la qualité des données. Un logiciel d’appariement de listes de premier ordre supprime les doublons avec précision, ce qui garantit l’exactitude des données. Dans 15 études indépendantes, la précision de Data Ladder en matière d’appariement a été évaluée à 96 % sur trois ensembles de données allant de 40 000 à 4 millions, soit plus que celle d’IBM (88 %) et de SaS (84 %).

Outils complets : Lorsque l’objectif est la gestion de la qualité des données, vous avez besoin d’un ensemble complet d’outils et pas seulement d’une solution autonome. Le bon outil vous permet de profiler, d’apparier, de nettoyer et de normaliser les données.

Intégration facile : À titre d’exemple, Data Ladder s’intègre à plus de 150 plateformes de données. Qu’il s’agisse de Salesforce ou de Zoho, vous pouvez simplement connecter votre base de données à Data Ladder.

Évolutif : Il est facile de mesurer quelques millions d’enregistrements. Mesurer quelques centaines de millions d’enregistrements est une technologie totalement différente qui ne peut être gérée que par un logiciel de nettoyage de listes conçu pour être évolutif. Lorsque vous investissez dans une solution de qualité des données, assurez-vous qu’elle peut vous aider lorsque vos données évoluent.

Étude de cas Amec Foster Wheeler

Amec Foster Wheeler plc était une société multinationale britannique de conseil, d’ingénierie et de gestion de projets dont le siège social se trouvait à Londres, au Royaume-Uni, jusqu’à son acquisition et sa fusion avec Wood Group en octobre 2017.

Face aux exigences croissantes du secteur de l’ingénierie environnementale, l’entreprise avait grand besoin de rationaliser ses processus d’entreprise pour faire face à l’afflux de projets et de tâches liées aux ressources humaines.

L’entreprise était en train de migrer vers un nouveau système financier et RH et savait que la qualité de ses données devait être améliorée avant de passer à l’étape suivante.

Grâce à DataMatch™, le logiciel de données de Data Ladder, l’entreprise a pu gérer ses efforts de déduplication. Avec la grande tâche de migrer toutes leurs informations financières et de ressources humaines existantes vers un nouveau système, ils prévoient également d’utiliser DataMatch™ pour nettoyer et repeupler leurs systèmes.

L’avantage ? Grâce aux meilleures capacités de nettoyage et de déduplication des données, combinées à une formation personnalisée dispensée par les spécialistes de Data Ladder, le client a pu non seulement préserver l’exactitude de ses données, mais aussi maintenir un niveau élevé de qualité des données nécessaire à la migration vers ses nouveaux systèmes financiers et RH.

Vous pouvez télécharger l’étude de cas pour prendre connaissance des défis, de la situation commerciale et de la manière dont nos solutions ont aidé l’entreprise à atteindre ses objectifs commerciaux et de qualité des données.

Conclusion

La qualité des données et les problèmes de concordance des listes sont un problème pour les entreprises depuis des lustres. Mais aujourd’hui, il existe littéralement des dizaines de solutions pour vous aider à nettoyer vos données. Cela dit, chaque besoin professionnel est différent, ce qui nécessite une combinaison de différents outils. Vous pouvez utiliser DataMatch™ de Data Ladder pour nettoyer vos données, mais vous pouvez aussi opter pour les services de migration vers le cloud de Talend.

En matière de qualité des données, il n’existe pas de solution universelle, mais cela ne doit pas vous freiner.

Ne laissez pas de mauvaises données affecter la croissance de votre entreprise.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.