Note : ce blog est la deuxième partie d’une série de trois. Si vous voulez, consultez le blog précédent où nous avons parlé de la nécessité d’une gestion systématique et centralisée des données.
La preuve de la nécessité d’un centre de données systématique et centralisé nous amène à la gestion des données de référence. Ceux d’entre nous qui connaissent un peu ce terme savent que la qualité des données et la gestion des données de référence sont étroitement intégrées l’une à l’autre. En fait, la qualité des données est considérée comme le principal moteur et le sous-produit des solutions de GDR.
C’est pourquoi de nombreux fournisseurs de données vendent aujourd’hui différentes versions de ces lignes de produits. Mais pour que vous puissiez comprendre laquelle convient le mieux aux besoins de votre entreprise, vous devez d’abord savoir ce que chacune de ces disciplines signifie.
Nous avons déjà publié un document qui couvre les capacités approfondies d’un outil de gestion de la qualité des données. Vous pouvez le consulter ici.
En ce qui concerne la gestion des données de référence, nous couvrirons dans ce blog sa signification, ses composants et son processus de base. Le prochain blog – le dernier de la série – comparera les deux solutions/technologies et vous aidera à déterminer laquelle choisir.
Alors, c’est parti !
Qu’est-ce que les données de base ?
Les processus ou les transactions qui se déroulent dans une entreprise impliquent toujours un certain ensemble d’entités ou de concepts. Selon le secteur d’activité d’une entreprise, ces entités peuvent différer, mais en général, elles comprennent les actifs de données suivants :
- Client
- Produit
- Employé
- Localisation
- Autre
- Vendeur
- Fournisseur
- Contact
- Poste comptable / Facture
- Politique
Ces éléments sont généralement appelés données de base. Toutes les tâches, processus ou transactions effectués dans une entreprise impliquent un ou plusieurs de ces objets de données de base.
Exemple d’objets de données de base
A titre d’exemple, considérez cette transaction :
Le client A achète le produit X à l’emplacement Y.
Pour que cette transaction soit traitée avec précision, une entreprise doit disposer d’informations sur ses clients, ses produits et ses sites, même si ces données sont probablement stockées dans trois applications ou bases de données différentes.
Qu’est-ce que la gestion des données de référence ?
Le terme de gestion des données de référence (MDM) est décrit comme suit :
Une collection de meilleures pratiques pour gérer les données qui :
- Prendre en charge la capture, l’intégration et le partage des données entre des sources de données disparates,
- Assurer la qualité des données (telles que l’exactitude, la cohérence et l’exhaustivité), et,
- Mettre en œuvre des règles de gouvernance des données pour permettre l’accès autorisé, la gestion des informations et d’autres flux de travail d’administration.
À partir de cette définition, les trois éléments essentiels du MDM sont clairs : la gouvernance des données (accès, politiques et infrastructure), les actions sur les données (capture, intégration et partage) et la qualité des données (de préférence, les dix mesures de qualité des données).
Nous allons aborder chacun d’entre eux plus en détail. Mais avant d’aller plus loin, parlons d’abord d’un point qui prête généralement à confusion lorsqu’il s’agit de MDM.
Processus de gestion des données de base
Le processus de mise en œuvre d’une solution MDM peut être assez complexe et nécessite l’implication de toutes les parties prenantes clés. Pour faire simple, elle consiste à suivre les 7 étapes suivantes :
1. Planification de la gestion des données de base
Lors de la mise en œuvre d’une initiative à l’échelle de l’entreprise comme le MDM, vous avez besoin de la participation de parties prenantes importantes, en particulier celles qui sont en contact direct avec les données dans votre entreprise.
Avant de pouvoir déployer des pratiques et des outils de GDR, vous devez élaborer un plan de GDR, ce qui implique :
- Identifier les personnes qui sont génératrices et destinataires des données de base dans votre entreprise.
- Coordonner avec les parties prenantes pour comprendre l’état actuel des données.
- Construire un cas qui justifie l’impact de l’initiative MDM en soutien aux objectifs de l’entreprise.
- Préparer des plans globaux pour :
- Modèles d’objets de données de base,
- Style architectural MDM,
- Plan d’intégration des données ou de migration vers/depuis les bases de données concernées.
- Faire approuver les plans proposés par les parties prenantes concernées.
2. Coordination avec les parties prenantes des données
De nombreuses personnes dans une entreprise sont considérées comme des parties prenantes importantes et doivent être impliquées à ce stade. Parmi ces personnes figurent :
- Responsables du développement commercial
- Cadres supérieurs
- Architectes de l’information
- Responsables des données
- Analystes de métadonnées
- Praticiens de la qualité des données
- Spécialistes de la gouvernance des données
- Développeurs et architectes de systèmes
- Consultants pour la mise en œuvre et l’adaptation des applications
- Personnel chargé des opérations de saisie des données
3. Modélisation des objets de données de base
L’étape principale du MDM – après la planification et l’implication des parties prenantes – est de construire le modèle de données MDM. Cette étape consiste à savoir :
- Quels sont les actifs de données qui sont au cœur de vos opérations commerciales ?
- Quelles sont les informations que vous devez réellement préserver sur ces données essentielles ?
- Comment ces données de base sont-elles liées les unes aux autres ?
Par conséquent, un modèle de données est simplement une représentation graphique ou logique de tous les objets de données de base, de leurs attributs importants et de la relation entre eux. La préparation de ces modèles facilitera les étapes ultérieures d’intégration, de qualité, de synchronisation et de gouvernance des données.
Passons en revue les principales étapes de la modélisation des données :
a. Identification des objets de données de base
Comme nous l’avons mentionné précédemment, l’une des étapes les plus importantes du MDM est l’identification des objets de données de référence – les entités de données que vos opérations et transactions commerciales impliquent habituellement. Il s’agit généralement (mais pas exclusivement) de clients, de produits, de sites, d’employés, etc.
b. Identifier les attributs des objets de données de base
Une fois les objets de données de base identifiés, vous devez maintenant sélectionner les attributs importants pour ces objets. Lors de vos sélections, n’oubliez pas d’inclure un attribut d’identification unique pour chaque ressource de données. Par exemple, pour les produits, il peut s’agir d’UGS, ou d’un identifiant unique pour les clients, et ainsi de suite.
En l’absence d’attributs d’identification uniques, vous pouvez être amené à inclure une combinaison d’attributs qui, mis ensemble, peuvent éventuellement constituer une identité unique.
c. Identifier les relations entre les objets de données de base
Il est maintenant temps de définir la hiérarchie et la relation entre les objets de données de base. Normalement, les types de relations suivants peuvent être créés entre les objets de données, en fonction de la manière dont les transactions commerciales sont autorisées dans une entreprise :
- Un à un
- Exemple : Un client ne peut avoir qu’un seul emplacement à la fois.
- Un à plusieurs
- Exemple : Un client peut effectuer plusieurs achats
- De plusieurs à un
- Exemple : Plusieurs clients peuvent provenir d’un même endroit
- Beaucoup à beaucoup
- Exemple : Plusieurs clients peuvent acheter plusieurs produits.
d. Construire le modèle dans MDM
Une fois ces tâches effectuées, il est maintenant temps de concevoir ou de construire le modèle finalisé dans MDM. Cela garantit que lorsque de nouvelles données sont chargées ou ajoutées dans le référentiel de données de base de MDM, elles doivent être conformes au modèle de données conçu. Cela signifie :
- Les enregistrements de données à venir doivent appartenir à l’un des objets de données de base modélisés.
- Les valeurs à venir doivent être valides, normalisées et formatées comme défini pour chaque attribut.
- Les valeurs à venir doivent être conformes aux relations imposées dans le modèle conçu.
Si ces conditions ne sont pas remplies, MDM déclenche une erreur et ne permet pas le stockage des données jusqu’à ce qu’elles soient rectifiées conformément à la conception modélisée.
Exemple de modèle d’objet de données de base
4. Intégrer les données dans le référentiel principal
Cette étape imite le processus ETL (extract, transform, load) pour la gestion des entrepôts de données. Dans le contexte du MDM, cela implique les étapes suivantes :
a. Connexion
Cela implique de connecter l’outil logiciel MDM à toutes les sources contenant des données de base (comme prévu lors de la phase initiale). Il peut s’agir de se connecter à un CRM (pour les informations sur les clients), à un logiciel financier (pour les factures), à un PCM (pour les produits), à un HRM (pour les employés), etc.
b. Extraction de
Cela implique d’extraire les enregistrements passés des sources connectées dans MDM – mais pas de les charger dans le référentiel de données de base tout de suite, cette étape vient après la consolidation.
L’extraction est effectuée afin que les enregistrements passés puissent être nettoyés et fusionnés avant d’être chargés dans le référentiel de données de base. Vous pouvez également choisir de filtrer le processus d’extraction – par périodes de temps spécifiques ou tout autre attribut. Par exemple, vous pouvez vouloir extraire des enregistrements de données remontant à dix ans, ou peut-être extraire uniquement les enregistrements qui ont été créés par une source valide.
c. Consolidation du site
Une fois que vous avez extrait les enregistrements de données nécessaires de toutes les sources connectées, il est temps de les consolider (nettoyage, normalisation, rapprochement et fusion). Assurez-vous que les dossiers consolidés :
- Représenter une vue unique et unifiée des données de base
- Conformez-vous au modèle de données GDR conçu lors de la troisième phase, sinon vous ne pourrez pas les charger dans le référentiel de données de base.
Étant donné que la plupart des applications de données cloisonnées présentent de nombreux problèmes de qualité des données, il est recommandé de suivre un cadre de qualité des données approprié pour la consolidation des enregistrements – nous en parlerons plus en détail dans la section suivante.
d. Chargement
Lorsque les enregistrements sont extraits et consolidés, ils sont maintenant prêts à être chargés dans le référentiel principal. Si les enregistrements de données ne sont pas conformes au modèle de données conçu, le MDM risque d’émettre des erreurs pendant le processus de chargement.
5. Intégrer des contrôles de qualité des données
Au cours du processus d’intégration (consolidation), un certain nombre de processus de qualité des données sont mis en œuvre pour normaliser les enregistrements de données en fonction du modèle conçu. Par la suite, chaque fois qu’une base de données connectée est mise à jour, cette nouvelle modification doit être migrée vers le référentiel de données MDM.
Mais avant de pouvoir migrer ce changement, les données mises à jour doivent être soumises à un processus systématique pour garantir leur qualité. C’est pourquoi un processus ou un cadre de qualité continue des données fait toujours partie de l’architecture MDM.
Ce cadre comprend généralement les étapes suivantes :
- Profilage des données: Évaluer l’état actuel de vos données et identifier les possibilités de nettoyage.
- Nettoyage et normalisation desdonnées : Effectuer une variété d’opérations de nettoyage des données et obtenir une vue standardisée de toutes les sources de données importées.
- Configuration de la correspondance des données : Configurer et exécuter des algorithmes de mise en correspondance des données, propriétaires ou leaders sur le marché, et les affiner en fonction de vos exigences en matière de données pour obtenir des résultats optimaux.
- Analyse des résultats de la correspondance des données : L’évaluation des résultats des correspondances et de leurs niveaux de confiance pour signaler les fausses correspondances et déterminer la fiche principale. Cela peut nécessiter l’implication des gestionnaires de données ou des administrateurs pour prendre la décision finale.
- Fusion et survie des données : Conception de règles de fusion et de survivance pour écraser automatiquement tous les champs de données de mauvaise qualité et récupérer l’enregistrement d’or.
6. Permettre la synchronisation linéaire des données
Les exigences en matière de synchronisation des données dépendent uniquement du style architectural choisi pour le MDM. Les styles de hub MDM tels que la coexistence nécessitent généralement des techniques de synchronisation complexes pour garantir que les données sont maintenues à jour dans MDM ainsi que dans toutes les applications sources connectées.
Afin de comprendre pleinement la synchronisation, nous nous concentrerons principalement sur le style de hub de coexistence dans cette section.
Une partie essentielle de MDM est sa capacité à agir comme un hub actif et intelligent qui :
- Répond aux demandes de données entrantes provenant de sources connectées.
- Fournit l’accès au référentiel de données de base.
- Surveille les modifications apportées à tout enregistrement à la source connectée.
- Fusionner les nouvelles modifications dans les enregistrements de données de base, tout en assurant la qualité des données.
- Renvoie les enregistrements de données de base mis à jour vers la source ou d’autres applications.
Pour assurer une synchronisation harmonieuse des données, une solution MDM doit être équipée de la logique et des règles de traitement appropriées, telles que :
- Rapidité : Il s’agit de propager les changements et d’effectuer les mises à jour en temps voulu pour que le MDM puisse être considéré comme un système toujours actif / toujours prêt.
- Latence : Il s’agit de minimiser le temps qui s’écoule entre la demande d’une information auprès d’une source connectée et sa mise à disposition finale.
- Cohérence : Il s’agit de la réplication de toutes les modifications entre les sources connectées. Cela peut dépendre du style de votre architecture MDM (si vous maintenez toutes les sources connectées à jour ou seulement le MDM).
- Cohérence : Il s’agit de mettre en œuvre les transactions dans l’ordre d’apparition, comme les demandes de lecture/écriture vers et depuis différentes sources connectées.
- Déterminisme : Il s’agit de s’assurer que la même requête donne les mêmes résultats, si elle est exécutée plusieurs fois.
7. Établir des règles de gouvernance des données
Une dernière partie – mais tout aussi importante – du MDM est la gouvernance des données. Le terme de gouvernance des données fait généralement référence à un ensemble de rôles, de politiques, de flux de travail, de normes et de mesures qui garantissent une utilisation et une sécurité efficaces des informations et permettent à une entreprise d’atteindre ses objectifs commerciaux.
La gouvernance des données dans le MDM est généralement considérée comme la capacité à :
- Créez des rôles de données et attribuez des permissions.
- Concevoir des flux de travail pour vérifier les mises à jour des informations.
- Limitez l’utilisation et le partage des données.
- Collaborer et coordonner la fusion de plusieurs ressources de données.
- Protéger les données et se conformer aux normes de conformité, telles que HIPAA, GDPR, etc.
- Assurez-vous que les données sont à l’abri des risques de sécurité.
Stratégie de gestion des données de référence
Après avoir mis en œuvre le processus de GDR, de nombreuses organisations ont encore du mal à atteindre leurs indicateurs clés de performance des données. Un manque de stratégie de GDR est souvent à l’origine de ces problèmes.
La mise en œuvre d’un MDM complet peut être assez complexe, car elle nécessite beaucoup de planification et de coordination entre les équipes et les parties prenantes. Pour atteindre vos objectifs de GDR, votre plan doit être soutenu par une stratégie solide, sinon il sera plus difficile à maintenir au fil du temps.
Nous examinons ici ce qu’est une stratégie de GDR, pourquoi elle est importante, et quels sont les domaines clés que vous devez définir avant de commencer le processus de GDR.
Qu’est-ce que la stratégie de gestion des données de référence ?
Une stratégie de gestion des données de référence peut être définie comme suit :
Une collection de meilleures pratiques qui doivent être intégrées dans le processus de GDR pour aider à atteindre l’état désiré des données et le maintenir dans le temps pour atteindre les objectifs de données à long terme.
Alors que le processus se concentre sur la mise en œuvre des fonctions GDR (telles que la modélisation des données et les règles de gouvernance des données), une stratégie GDR est plus axée sur l’entreprise et identifie l’effort nécessaire pour combler l’écart entre l’état actuel des données et ce qu’elles doivent être dans un avenir proche.
Presque toutes les entreprises adoptent une solution MDM dans l’espoir de rendre leurs données d’entreprise précises, cohérentes et complètes. Mais vous devez mesurer dans quelle mesure les résultats des données répondent aux indicateurs clés de performance définis, et quelles pratiques stratégiques peuvent vous aider à y parvenir plus rapidement.
Pourquoi la stratégie de GDR est-elle importante ?
La conception d’une stratégie de GDR est tout aussi importante que la mise en œuvre du processus. Sinon, vous pourriez avoir l’impression que votre entreprise va quelque part avec ses efforts de GDR, mais sans nécessairement savoir où. Une stratégie de GDR vous aidera à comprendre de manière holistique comment les composants disparates de GDR fonctionnent ensemble pour atteindre le résultat souhaité. Cela permet de définir une orientation à long terme dans votre esprit et de décider comment atteindre vos futurs objectifs en matière de données.
Ainsi, une stratégie de GDR vous permet non seulement de mettre en œuvre, mais aussi de surveiller et de faire pivoter de manière cohérente vos fonctions de GDR lorsque les résultats attendus ne sont pas au rendez-vous.
Comment planifier votre stratégie MDM ?
Tout cela est plus facile à dire qu’à faire. Vous vous demandez peut-être encore à quoi ressemble exactement une stratégie de GDR et quels sont les exemples de stratégie de GDR. Nous allons examiner ici les disciplines les plus courantes que toute stratégie de GDR doit intégrer pour garantir un retour sur investissement maximal des efforts de GDR.
1. Se concentrer sur les problèmes de qualité des données à long terme
Les données d’entreprise sont susceptibles de présenter différents types de problèmes de qualité des données, tels que des champs invalides, des informations inexactes, des enregistrements en double et des vues incohérentes. Il est important que votre stratégie de nettoyage et de normalisation des données ne se concentre pas uniquement sur les problèmes actuels, mais qu’elle ait une approche stratégique tournée vers l’avenir, dans laquelle les problèmes de données susceptibles de se produire dans un avenir proche sont également pris en charge.
De nombreux dirigeants souhaitent simplement en finir avec les projets de GDR qui s’éternisent. Ils finissent par résoudre les problèmes de manière ad hoc, sans vraiment comprendre le cœur de ces problèmes, ce qui les a amenés dans le système et quels autres problèmes peuvent en résulter à long terme. Une stratégie globale ne se contente pas de traiter la situation actuelle, mais prévoit également de rectifier ce qui pourrait survenir à l’avenir.
2. Ne sous-estimez pas l’adhésion des dirigeants
Un plan de mise en œuvre de GDR est incomplet sans l’implication des parties prenantes et des dirigeants. L’une des raisons pour lesquelles les projets GDR sont considérés comme de longue haleine est que le conseil d’administration ou de direction n’est pas vraiment convaincu de la valeur du projet. Vous pouvez être confronté à des retards ou à des demandes de clarification lorsque vous essayez d’obtenir des approbations sur certaines questions.
Un manque d’implication de la part des dirigeants peut également entraîner des réactions négatives de la part de diverses unités commerciales, rendant l’exécution et la maintenance du GDR impossibles au fil du temps.
3. Traiter le MDM comme plus qu’une simple technologie
En général, le MDM est considéré comme une technologie ou un outil logiciel. Mais elle doit être traitée comme un concept technique contrôlé et mis en place par des professionnels, à l’aide d’outils logiciels.
L’outil logiciel doit prendre en charge les opérations de GDR, telles que la modélisation des données, l’intégration, le profilage, la gestion de la qualité des données, la gouvernance des données, etc. Mais il incombe aux professionnels d’une entreprise d’élaborer la bonne solution de données – non seulement sur le plan technique, mais aussi sur le plan stratégique – afin de faciliter la réalisation des buts et objectifs de l’entreprise.
C’est pourquoi, si vous souhaitez ajouter un MDM à l’infrastructure de données de votre entreprise, vous devez le traiter comme une discipline et pas seulement comme une technologie. Cela signifie qu’en plus d’une installation MDM complète, vous devez également réévaluer et restructurer les processus existants qui traitent et contrôlent les données dans votre entreprise. Une telle initiative peut exiger beaucoup de planification, de coordination et de va-et-vient entre plusieurs équipes. Mais une fois que vous y parvenez, votre entreprise peut en récolter les fruits pendant des années.
4. Rendre les gens responsables et redevables
Étant donné que le processus de GDR nécessite l’implication de nombreuses personnes occupant différents rôles au sein d’une organisation, il peut devenir assez accablant. Lorsque plusieurs rôles sont impliqués dans la réalisation d’un résultat commun, il est toujours crucial d’identifier le niveau de contribution de chaque rôle. De nombreux responsables préfèrent constituer des équipes de gestion des données qui se chargent de l’exécution du MDM.
C’est là qu’un modèle RACI peut être très utile. Un modèle ou une matrice RACI permet de déterminer si un rôle est Responsable, Responsable, Consulté ou Informé des tâches nécessaires à la réalisation d’un objectif. Lorsqu’il s’agit de gérer la qualité des données, vous devez identifier les rôles à jouer :
- Responsable de la réalisation de la tâche.
- Responsable de la réalisation des résultats de la tâche.
- Consultés pour obtenir des avis sur la réalisation des tâches.
- Informé de l’avancement de la tâche.
5. Choisir le bon style architectural MDM
En fonction de l’objectif que sert un MDM pour une organisation, une solution MDM peut être mise en œuvre dans différents styles d’architecture ou de hub. Les plus courantes sont mentionnées ci-dessous :
- Style registre : Avec ce style, les données ne sont pas copiées ou déplacées vers un hub central ; le MDM maintient plutôt un index (ou un registre) qui pointe vers les fiches stockées dans les systèmes distribués.
- Style consolidé : Avec ce style, les enregistrements de données sont consolidés dans MDM mais ne sont pas synchronisés ou renvoyés aux applications sources ; ils sont plutôt envoyés aux applications en aval qui utilisent les données pour la production de rapports ou à d’autres fins de BI.
- Style coexistant/hybride : Avec ce style, les enregistrements de données maîtres ou consolidés sont conservés dans le MDM, mais ils sont également renvoyés vers les applications sources.
- Style centralisé : Avec ce style, les enregistrements de données maîtres ou consolidés sont conservés de manière centralisée dans le MDM uniquement, et les applications sources peuvent y accéder selon les besoins.
6. Pensez à l’évolutivité
Essayez de ne pas concevoir un modèle de GDR qui ne fonctionne qu’avec l’ensemble actuel de sources de données, de types et de formats, et d’actifs de données de référence. L’évolutivité doit être une préoccupation majeure lors de la mise en œuvre de solutions MDM, car vous voulez quelque chose qui fonctionne non seulement aujourd’hui, mais aussi dans les années à venir. Les entreprises qui pensent à l’évolutivité – en termes de conception et d’architecture MDM – ont plus de chances de réussir à atteindre leurs objectifs de manière constante dans le temps.
7. Maintenir la gouvernance des données au cœur du MDM
Nous avons discuté de l’établissement de règles de gouvernance des données dans le processus de GDR, mais il est important de mentionner ici que la gouvernance des données est la colle qui maintient le GDR ensemble. La gouvernance des données définit la manière dont les différents actifs de données doivent être contrôlés et autorisés. Votre organisation doit mettre en place des politiques et des normes de gouvernance des données, qu’elle dispose ou non d’un MDM. Son importance est évidente du fait que tous les composants de GDR nécessitent une gouvernance des données pour une exécution optimale.
8. Définir et mesurer les paramètres d’efficacité
Un autre aspect important de la stratégie de GDR est la mesure de l’efficacité du processus. Cela vous permet de comprendre la performance du processus conçu et de ses composants. L’un des moyens de mesurer l’efficacité du processus consiste à rechercher les erreurs dans les données nettoyées et consolidées. En fonction de ce que la qualité des données signifie pour votre entreprise, vous pouvez choisir de mesurer les caractéristiques des données qui indiquent des niveaux acceptables de qualité des données.
Une liste de dimensions de données courantes est donnée ci-dessous :
- Exactitude : Les valeurs des données dans MDM sont-elles exactes ?
- Lignage : Les valeurs des données ont-elles été mises à jour par des sources autorisées ?
- Sémantique : Les valeurs des données sont-elles fidèles à leur signification ?
- Structure : Les valeurs des données existent-elles dans le bon modèle et/ou format ?
- Complétude : Manque-t-il un attribut crucial des données ?
- Cohérence : Le MDM produit-il systématiquement les mêmes résultats pour la même requête ?
- Monnaie : Le MDM produit-il des données qui sont acceptablement à jour ?
- Rapidité : Dans quel délai le MDM fournit-il les données demandées ?
- Caractère raisonnable : Les valeurs des données ont-elles le bon type et la bonne taille ?
- Identifiabilité : Chaque enregistrement représente-t-il une identité unique et n’est pas un doublon ?
Nous concluons ainsi la deuxième partie de notre série de blogs. Consultez notre prochain et dernier blog de la série qui compare le DQM et le MDM et vous aide à décider lequel choisir pour votre entreprise.