Logiciel de correspondance floue
En toute confiance
En toute confiance
Définition
Qu'est-ce que la correspondance floue ?
La correspondance floue est utilisée pour relier des données résidant dans des tables ou des sources disparates qui ne contiennent pas d’identifiants uniques ou de clés primaires et étrangères appropriées. Dans ce cas, une combinaison d’attributs non uniques (tels que le nom de famille, le nom de l’entreprise ou l’adresse postale) est utilisée pour déterminer la probabilité que deux enregistrements soient similaires.
Pour trouver des correspondances précises, nous utilisons une combinaison de techniques de correspondance de données probabilistes brevetées et établies qui calculent la probabilité que deux chaînes de caractères soient similaires. Au lieu d’une réponse booléenne (en termes de Oui ou Non), un algorithme de correspondance floue produit une valeur en pourcentage ou un terme relatif qui marque l’indice de similarité.
Processus
Comment fonctionne la correspondance floue ?
Connexion à la source de données
Connectez la base de données, mappez les champs et sélectionnez une combinaison de champs pour la correspondance floue qui a de fortes chances d'être similaire au cas où les enregistrements appartiennent à la même entité.
Calcul du score flou
Les scores de correspondance sont calculés à l'aide de la meilleure combinaison d'algorithmes flous propriétaires et établis, tels que la distance de Levenstein, la distance d'édition, le Soundex, le Metaphone ou la similitude cosinus, etc.
Configuration de la correspondance floue
Choisissez des pondérations appropriées (donnez la priorité à certains champs plutôt qu'à d'autres), des niveaux de seuil (définissez la limite entre les correspondances et les non-correspondances) et le type de correspondance floue (basée sur les caractères, phonétique, etc.).
Classification et évaluation
Les scores sont utilisés pour classer et regrouper les enregistrements en tant que correspondance ou non-correspondance. Selon la nature des données, vous pouvez rencontrer des résultats faussement positifs et négatifs qui nécessitent une évaluation plus approfondie.
Solution
Laissez Data Ladder s'occuper de votre processus de comparaison floue.
Voir DataMatch Enterprise au travail
DataMatch Enterprise est un outil de comparaison floue très visuel et intuitif, qui automatise l’ensemble du processus de comparaison floue, vous libérant ainsi de l’effort manuel et de la main-d’œuvre nécessaires à la comparaison des champs de données. DME identifie intelligemment les acronymes, les inversions et variations de noms, les mots phonétiques, les fautes d’orthographe, ainsi que les abréviations.
DME utilise un certain nombre d’algorithmes de correspondance floue, ainsi que des correspondances exactes et phonétiques, pour identifier et faire correspondre des enregistrements parmi des millions de points de données provenant de sources multiples et disparates, notamment des bases de données relationnelles, des applications Web et des systèmes de gestion de la relation client.
Avantages pour les entreprises
Comment la correspondance floue peut-elle vous être utile ?
Facile à configurer
Réglez la sensibilité de la correspondance pour minimiser les faux positifs ou augmentez-la de quelques crans si vous préférez une saisie plus manuelle pour la précision.
Créer une vue unique du client
Brisez les silos de données en détectant les correspondances au sein de sources de données disparates et entre elles afin de créer des enregistrements en or pour une vue complète des clients.
Une plus grande précision d'adaptation
Contrairement à la correspondance déterministe, les algorithmes flous trouvent des correspondances plus précises en détectant les fausses clés, les abréviations et autres variations.
Réduire la pression sur les ressources informatiques
La mise en correspondance rapide des données en libre-service soulage le service et les ressources informatiques, ce qui permet de réduire de 80 % le temps nécessaire pour obtenir des informations.
Pertinence pour les applications du monde réel
Les algorithmes flous sont les mieux adaptés pour trouver des correspondances lorsque les enregistrements comportent des fautes de frappe, des erreurs de système et de formatage, et des problèmes de saisie.
Enrichir les données pour des informations plus approfondies
En reliant des enregistrements similaires provenant de sources externes, les entreprises peuvent enrichir les enregistrements dorés avec des données et des informations supplémentaires.
Comparons
Quelle est la précision de notre solution ?
Les mises en œuvre internes ont 10 % de chances de perdre leur personnel interne. Ainsi, sur une période de 5 ans, la moitié des mises en œuvre internes perdent le membre central qui gérait et comprenait le programme de rapprochement.
Des tests détaillés ont été réalisés sur 15 comparaisons de produits différents avec des entreprises universitaires, gouvernementales et privées (80K à 8M d’enregistrements), et les résultats suivants ont été trouvés : (Note : ceci inclut l’effet des faux positifs)
Features of the solution | Data Ladder | IBM Quality Stage | SAS Dataflux | In-House Solutions | Comments |
---|---|---|---|---|---|
Match Accuracy (Between 40K to 8M record samples) | 96% | 91% | 84% | 65-85% | Multi-threaded, in-memory, no-SQL processing to optimize for speed and accuracy. Speed is important, because the more match iterations you can run, the more accurate your results will be. |
Software Speed | Very Fast | Fast | Fast | Slow | A metric for ease of use. Here speed indicates time to first result, not necessary full cleansing. |
Time to First Result | 15 Minutes | 2 Months+ | 2 Months+ | 3 Months+ | |
Purchasing/Licensing Costing | 80 to 95% Below Competition | $370K+ | $220K+ | $250K+ | Includes base license costs. |
Questions fréquemment posées
Vous avez d'autres questions ? Regardez ça
prêt? allons-y
Essayez maintenant ou obtenez une démo avec un expert!
« * » indique les champs nécessaires