Logiciel de correspondance floue

Trouvez rapidement et précisément des correspondances entre des sources de données disparates, et créez des configurations de correspondance évolutives et reproductibles. Variations floues, mal saisies et abrégées avec un minimum de faux positifs.

En toute confiance

En toute confiance

Définition

Qu'est-ce que la correspondance floue ?

La correspondance floue est utilisée pour relier des données résidant dans des tables ou des sources disparates qui ne contiennent pas d’identifiants uniques ou de clés primaires et étrangères appropriées. Dans ce cas, une combinaison d’attributs non uniques (tels que le nom de famille, le nom de l’entreprise ou l’adresse postale) est utilisée pour déterminer la probabilité que deux enregistrements soient similaires.

Pour trouver des correspondances précises, nous utilisons une combinaison de techniques de correspondance de données probabilistes brevetées et établies qui calculent la probabilité que deux chaînes de caractères soient similaires. Au lieu d’une réponse booléenne (en termes de Oui ou Non), un algorithme de correspondance floue produit une valeur en pourcentage ou un terme relatif qui marque l’indice de similarité.

Processus

Comment fonctionne la correspondance floue ?

Connexion à la source de données

Connectez la base de données, mappez les champs et sélectionnez une combinaison de champs pour la correspondance floue qui a de fortes chances d'être similaire au cas où les enregistrements appartiennent à la même entité.

Calcul du score flou

Les scores de correspondance sont calculés à l'aide de la meilleure combinaison d'algorithmes flous propriétaires et établis, tels que la distance de Levenstein, la distance d'édition, le Soundex, le Metaphone ou la similitude cosinus, etc.

Configuration de la correspondance floue

Choisissez des pondérations appropriées (donnez la priorité à certains champs plutôt qu'à d'autres), des niveaux de seuil (définissez la limite entre les correspondances et les non-correspondances) et le type de correspondance floue (basée sur les caractères, phonétique, etc.).

Classification et évaluation

Les scores sont utilisés pour classer et regrouper les enregistrements en tant que correspondance ou non-correspondance. Selon la nature des données, vous pouvez rencontrer des résultats faussement positifs et négatifs qui nécessitent une évaluation plus approfondie.

Solution

Laissez Data Ladder s'occuper de votre processus de comparaison floue.

Voir DataMatch Enterprise au travail

DataMatch Enterprise est un outil de comparaison floue très visuel et intuitif, qui automatise l’ensemble du processus de comparaison floue, vous libérant ainsi de l’effort manuel et de la main-d’œuvre nécessaires à la comparaison des champs de données. DME identifie intelligemment les acronymes, les inversions et variations de noms, les mots phonétiques, les fautes d’orthographe, ainsi que les abréviations.

DME utilise un certain nombre d’algorithmes de correspondance floue, ainsi que des correspondances exactes et phonétiques, pour identifier et faire correspondre des enregistrements parmi des millions de points de données provenant de sources multiples et disparates, notamment des bases de données relationnelles, des applications Web et des systèmes de gestion de la relation client.

Avantages pour les entreprises

Comment la correspondance floue peut-elle vous être utile ?

Facile à configurer

Réglez la sensibilité de la correspondance pour minimiser les faux positifs ou augmentez-la de quelques crans si vous préférez une saisie plus manuelle pour la précision.

Créer une vue unique du client

Brisez les silos de données en détectant les correspondances au sein de sources de données disparates et entre elles afin de créer des enregistrements en or pour une vue complète des clients.

Une plus grande précision d'adaptation

Contrairement à la correspondance déterministe, les algorithmes flous trouvent des correspondances plus précises en détectant les fausses clés, les abréviations et autres variations.

Réduire la pression sur les ressources informatiques

La mise en correspondance rapide des données en libre-service soulage le service et les ressources informatiques, ce qui permet de réduire de 80 % le temps nécessaire pour obtenir des informations.

Pertinence pour les applications du monde réel

Les algorithmes flous sont les mieux adaptés pour trouver des correspondances lorsque les enregistrements comportent des fautes de frappe, des erreurs de système et de formatage, et des problèmes de saisie.

Enrichir les données pour des informations plus approfondies

En reliant des enregistrements similaires provenant de sources externes, les entreprises peuvent enrichir les enregistrements dorés avec des données et des informations supplémentaires.

Comparons

Quelle est la précision de notre solution ?

Les mises en œuvre internes ont 10 % de chances de perdre leur personnel interne. Ainsi, sur une période de 5 ans, la moitié des mises en œuvre internes perdent le membre central qui gérait et comprenait le programme de rapprochement.

Des tests détaillés ont été réalisés sur 15 comparaisons de produits différents avec des entreprises universitaires, gouvernementales et privées (80K à 8M d’enregistrements), et les résultats suivants ont été trouvés : (Note : ceci inclut l’effet des faux positifs)

Features of the solutionData LadderIBM Quality StageSAS DatafluxIn-House SolutionsComments
Match Accuracy (Between 40K to 8M record samples)96%91%84%65-85%Multi-threaded, in-memory, no-SQL processing to optimize for speed and accuracy. Speed is important, because the more match iterations you can run, the more accurate your results will be.
Software SpeedVery FastFastFastSlowA metric for ease of use. Here speed indicates time to first result, not necessary full cleansing.
Time to First Result15 Minutes2 Months+2 Months+3 Months+
Purchasing/Licensing Costing80 to 95% Below Competition$370K+$220K+$250K+Includes base license costs.

Questions fréquemment posées

Vous avez d'autres questions ? Regardez ça

De multiples facteurs peuvent augmenter le nombre de faux négatifs dans vos résultats de correspondance floue, comme la sélection de champs de données inadaptés, des critères de correspondance trop étroits et des niveaux de seuil inappropriés pour la correspondance floue.
Avant de procéder au rapprochement, exécutez des contrôles de profilage des données pour comprendre l’état de vos données. Si nécessaire, effectuez des activités de nettoyage et de normalisation des données pour corriger les incohérences ou les informations non valides présentes. De plus, l’utilisation d’un outil de correspondance floue en libre-service peut améliorer visiblement la vitesse et la précision de la correspondance.

prêt? allons-y

Essayez maintenant ou obtenez une démo avec un expert!

« * » indique les champs nécessaires

Choix*
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.