Blog

Qu’est-ce que le profilage des données ? Portée, techniques et défis

Aujourd’hui, les entreprises dépendent fortement des données pour développer leurs activités et atteindre leurs objectifs et leurs attentes. Des efforts considérables sont investis dans l’élaboration d’une feuille de route parfaite en matière de stratégie de données et dans l’utilisation de l’information en tant qu’actif commercial le plus critique ; pourtant, les résultats ne sont pas satisfaisants. L’incapacité d’une organisation à comprendre suffisamment bien ses données et à les mettre correctement en correspondance avec les résultats escomptés est la raison la plus courante de l’échec des initiatives fondées sur les données.

C’est là que le profilage des données joue un rôle important.

Qu’est-ce que le profilage des données ?

Le profilage des données est le processus qui consiste à découvrir des détails cachés sur la structure et le contenu de vos ensembles de données.

L’utilisation de ces détails non couverts dépend de ce que vous essayez d’obtenir avec vos données. Par exemple, si vous souhaitez améliorer la qualité des données, un profil de données permet d’identifier les possibilités de nettoyage des données et d’évaluer la qualité de vos données par rapport aux critères de qualité des données.

Portée du profilage des données – S’agit-il uniquement de tests de qualité des données ?

Le profilage des données est généralement considéré comme une simple exigence pour garantir la qualité des données, alors qu’en réalité, son application et son utilisation vont bien au-delà. Le profilage des données est un processus systématique qui met en œuvre un certain nombre d’algorithmes qui analysent et évaluent les détails empiriques d’un ensemble de données, et produisent une vue résumée de la structure des données et de leurs valeurs. Ces informations peuvent ensuite être utilisées à toutes fins utiles – par exemple, pour mettre en évidence les problèmes potentiels de qualité des données, déterminer les domaines à améliorer, établir une correspondance avec un autre profil de données pour un projet de fusion, etc.

Examinons quelques contextes de base où le profilage des données est largement utilisé :

1. Reverse engineering des données pour trouver les métadonnées manquantes

Dans de nombreux cas où les données sont saisies depuis une longue période, les métadonnées sont généralement manquantes ou incomplètes. Les métadonnées représentent des détails sur chaque attribut d’un ensemble de données, tel que son :

  • Définition : le but de l’attribut stocké,
  • Type de données : le type de données qu’il est autorisé à contenir ; par exemple, chaîne de caractères, nombre, date, etc,
  • Taille : le nombre maximum ou minimum de caractères qu’il peut contenir,
  • Domaine : l’espace à partir duquel il dérive ses valeurs ; par exemple, les valeurs de la colonne Pays ne peuvent être dérivées que d’une liste de pays réels existant dans le monde.

En l’absence de telles informations, les valeurs d’un attribut font l’objet d’une rétro-ingénierie – analysée et résumée – pour découvrir les métadonnées manquantes, afin qu’elles puissent être utilisées pour d’autres activités telles que la construction d’un modèle de données d’entreprise, la planification des migrations de données, la rénovation des processus métier, etc.

2. Analyse des anomalies

Avant de pouvoir utiliser les données à quelque fin que ce soit, il faut s’assurer qu’elles sont exemptes d’anomalies, sinon les résultats analysés seront faussés. Le profilage des données permet d’analyser statistiquement un ensemble de données et d’identifier une gamme de valeurs qui se situent dans la fourchette acceptable, et de détecter les valeurs aberrantes qui peuvent être présentes. L’analyse statistique d’un ensemble de données examine les distributions de fréquences, les valeurs variantes, le pourcentage de valeurs absentes, ainsi que les relations entre les colonnes d’un même ensemble de données et d’ensembles de données différents.

3. Découvrir les règles implicites des données

Dans la manière dont les données sont capturées, stockées et manipulées, une bibliothèque de règles de données est mise en œuvre pour assurer la conformité aux normes de données. Parfois, ces règles sont assez évidentes et intentionnelles, mais d’autres fois, ces règles peuvent être complètement involontaires et implicites dans la logique et les processus d’une entreprise.

Les contraintes d’intégrité ou les dépendances relationnelles entre attributs sont des exemples de ces règles. Un profil de données peut vous aider à extraire les règles cachées afin qu’elles puissent être intégrées intentionnellement dans le cycle de vie des données.

Trois niveaux de profilage des données

Le processus de profilage des données se déroule à trois niveaux. Selon la façon dont les résultats du profilage doivent être utilisés, vous pouvez exécuter le profilage à un seul niveau ou à une combinaison de niveaux. La complexité du calcul augmente au fur et à mesure que le niveau augmente (nous y reviendrons dans la section suivante).

Au premier niveau et au niveau initial, une seule colonne est analysée en exécutant diverses techniques statistiques. Au niveau suivant, l’analyse des relations entre plusieurs colonnes d’un même ensemble de données a lieu. Et enfin, au troisième niveau, nous analysons les relations qui existent entre les colonnes de différents ensembles de données ou tableaux.

Examinons chaque niveau plus en détail.

1. Profilage de la colonne

Le profilage des colonnes évalue les différentes caractéristiques que les valeurs d’une colonne représentent et donne des indications sur la façon dont elle est structurée – en termes de métadonnées et de contenu. Lors du profilage d’une colonne, une analyse de fréquence, statistique et descriptive est effectuée.

a. Analyse de fréquence

Cela concerne un certain nombre de techniques liées au comptage et à la distribution des valeurs dans une colonne, par exemple :

  1. Analyse de la gamme : évalue si les valeurs d’une colonne peuvent être soumises à un ordre, et s’il existe une gamme bien définie (valeurs minimales et maximales) dans laquelle toutes les valeurs peuvent être mises en correspondance.
  2. Analyse des valeurs nulles : enregistre le pourcentage de valeurs qui sont nulles (vides) dans la colonne.
  3. Analyse du nombre de valeurs distinctes : compte le nombre de valeurs distinctes qui apparaissent dans la colonne.
  4. Analyse de la distribution des valeurs : évalue comment les valeurs d’une colonne sont distribuées dans l’intervalle défini.
  5. Analyse d’unicité : étiquette si une valeur dans une colonne n’apparaît qu’une seule fois (est unique) ou non.
b. Analyse statistique

Cette analyse est généralement effectuée pour les colonnes numériques ou celles liées à des horodatages. Il donne un aperçu d’une vue agrégée ou résumée de la colonne, par exemple :

  1. Valeur min/max : identifie la valeur minimale et maximale de la colonne en ordonnant toutes les valeurs.
  2. Moyenne : calcule la valeur moyenne de la colonne.
  3. Médiane : sélectionne la valeur médiane de l’ensemble des colonnes ordonnées.
  4. Écart-type : calcule la variation présente dans l’ensemble des valeurs de la colonne.
c. Analyse descriptive

Enfin, l’analyse descriptive s’intéresse plus en détail au contenu de la chronique, au lieu de se concentrer sur sa structure et sa distribution. Cela implique :

  1. Analyse du type de données : détermine le type de données et la taille maximale du nombre de caractères qu’il contient ; par exemple, chaîne de caractères, nombre, date, etc.
  2. Analyse des types de données personnalisés : analyse sémantiquement les valeurs pour voir si un type de données abstrait ou personnalisé existe pour la colonne ; par exemple, Adresse, ou Numéro de téléphone, etc.
  3. Analyse des motifs : permet de découvrir des motifs ou des formats cachés utilisés dans les valeurs des colonnes.
  4. Analyse du domaine : cartographie l’espace à partir duquel les valeurs de la colonne sont dérivées ; par exemple, les valeurs de la colonne Pays ne peuvent être dérivées que d’une liste de pays réels existant dans le monde.

2. Profilage sur plusieurs colonnes

Ce type d’analyse identifie les dépendances ou les relations qui existent entre plusieurs colonnes. Comme elle implique une plus grande quantité de données, elle est plus gourmande en ressources.

a. Analyse des clés primaires

Une clé primaire identifie de manière unique chaque entité présente dans un ensemble de données. Par exemple, la colonne Numéro de sécurité sociale d’un ensemble de données sur les clients identifie de manière unique chaque client ; de même, la colonne Numéro de fabricant du produit de l’ensemble de données sur les produits identifie de manière unique chaque produit, et ainsi de suite.

Souvent, les ensembles de données ne contiennent pas ces attributs d’identification uniques ou ils sont présents, mais la plupart de leurs valeurs sont manquantes. Dans ce cas, une combinaison de colonnes est sélectionnée et leurs valeurs sont examinées pour déterminer les clés primaires potentielles qui identifient de manière unique chaque enregistrement.

b. Analyse des dépendances

Ce type d’analyse identifie les dépendances fonctionnelles entre plusieurs colonnes. Ces relations sont généralement intégrées dans le contenu de l’attribut. Par exemple, il existe une relation entre les deux colonnes Ville et Pays. Si deux lignes d’un ensemble de données ont la même ville, les valeurs correspondantes du pays doivent également être identiques.

Ce type de profilage des données vous aide à documenter toutes les relations de ce type présentes dans votre ensemble de données – qu’elles soient génériques ou spécifiques à vos processus organisationnels.

3. Profilage des tables croisées

Le dernier niveau de profilage des données est le plus complexe sur le plan informatique, car il implique l’analyse de plusieurs colonnes dans plusieurs tables. Ceci est fait pour déterminer les relations qui peuvent exister entre les tables, ainsi que la façon dont ces relations sont maintenues. Il comprend les techniques suivantes :

a. Analyse des clés étrangères

Lors du profilage inter-table, les clés étrangères sont analysées pour comprendre comment une colonne d’une table relie ses enregistrements à une autre table. Par exemple, une entreprise peut enregistrer les informations personnelles de ses employés dans une table, et les détails de leur emploi dans une autre table. Ainsi, une clé étrangère doit être présente dans la table des employés qui relie le rôle de chaque individu à la liste des rôles disponibles et à d’autres informations connexes, telles que le département, les détails de la rémunération, etc.

b. Analyse des enregistrements orphelins

Cette analyse examine si une relation de clé étrangère est violée. En prolongeant l’exemple précédent, la violation peut se produire lorsque l’enregistrement personnel d’un employé identifie son rôle d’emploi en utilisant une clé étrangère qui n’est pas présente dans la table des rôles d’emploi.

Lors du profilage transversal, tous ces enregistrements orphelins sont déterminés afin que les données manquantes puissent être mises à jour et complétées.

c. Colonnes en double

Souvent, la même information est stockée dans plusieurs colonnes de plusieurs tables. Il est également possible de stocker des informations différentes dans plusieurs colonnes portant le même nom. Ces similitudes/différences sont analysées en colonnes à travers les tableaux en évaluant les valeurs des colonnes et leurs intersections.

Défis rencontrés lors du profilage des données

Si le profilage des données est un élément important de toute initiative axée sur les données, il peut facilement devenir incontrôlable en fonction de la portée et de l’ampleur du processus d’analyse. Voici quelques-uns des défis les plus fréquemment rencontrés lors du profilage des données :

1. Performance du système

Le processus de profilage des données est gourmand en ressources informatiques car il implique un grand nombre de comparaisons de colonnes – au sein d’une même table, entre les tables et entre les tables. Cela nécessite un grand nombre de ressources informatiques, telles que la mémoire et l’espace disque, ainsi que plus de temps pour compléter et construire les résultats de sortie. L’utilisation d’un système capable de prendre en charge des calculs complexes constitue donc un défi de taille.

2. Limiter la portée des résultats

Puisque les rapports de profil de données sont générés en résumant et en agrégeant les valeurs des données, il doit y avoir un seuil qui définit le niveau de compression à mettre en œuvre. Cela permet d’obtenir des résultats plus significatifs et plus ciblés.

Par exemple, vous ne souhaitez peut-être pas connaître les valeurs qui n’apparaissent qu’une ou deux fois dans une colonne, mais si elles apparaissent plus de dix fois, elles peuvent ajouter de la valeur à la synthèse et doivent donc être incluses. Ainsi, la possibilité de limiter ou de conditionner ce qui entre et ce qui n’entre pas dans le rapport final du profil est une décision difficile à prendre.

3. Tirer de la valeur des rapports profilés

L’analyse des ensembles de données pour comprendre leur structure et la formation de leur contenu n’est qu’un aspect de la question. Les profils de données générés doivent être analysés pour comprendre la prochaine ligne d’action. Il faut impliquer des professionnels expérimentés dans le domaine des données, capables d’examiner les rapports et d’expliquer pourquoi les données sont telles qu’elles sont, et ce qui peut être fait pour les transformer si nécessaire.

4. Outils de profilage des données en libre-service

Compte tenu de la complexité du calcul du profilage des données, il s’agit d’un processus qui doit généralement être réalisé par des professionnels compétents en matière de technologie ou de données. L’indisponibilité d’outils logiciels de profilage des données en libre-service est un problème courant.

Un outil de profilage des données en libre-service capable de produire une vue rapide à 360° des données et d’identifier les anomalies de base, telles que les valeurs vides, les types de données des champs, les modèles récurrents et d’autres statistiques descriptives, est une exigence de base pour toute initiative axée sur les données. DataMatch Enterprise de Data Ladder est une solution de qualité des données entièrement optimisée qui offre le profilage des données comme la première des nombreuses étapes de correction, d’optimisation et de raffinement de vos données.

Pour en savoir plus sur la façon dont notre solution peut vous aider à résoudre vos problèmes de qualité des données, inscrivez-vous à un essai gratuit dès aujourd’hui ou organisez une démonstration avec l’un de nos experts.

In this blog, you will find:

Try data matching today

No credit card required

Hidden

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.