Blog

Comment la qualité des données est un défi important pour l’ingestion du lac de données et ce que vous pouvez faire pour assurer le succès de votre projet de lac de données.

Written by lbarrera
octobre 23, 2018

Leslacs de données ont été créés comme une solution au stockage de données non structurées, une alternative à la nature restrictive des entrepôts de données. Mais cette facilité s’accompagne d’une série de défis uniques que les organisations ont du mal à surmonter.

En fait, certains défis liés au lac de données sont si difficiles à surmonter que les organisations abandonnent l’idée de maintenir un lac de données.

Les principaux cabinets d’analyse citent depuis un certain temps déjà des taux de défaillance des lacs de données de 85 %. (Teradata)

Quels sont ces défis uniques et existe-t-il un moyen pour les organisations de maintenir leur lac de données et de répondre à l’objectif pour lequel il a été conçu ?

Découvrons-en davantage.

Pourquoi des lacs de données et non des entrepôts de données ?

Une organisation de niveau entreprise est connectée à au moins 464 applications. La quantité d’informations qui affluent de toutes ces applications doit être stockée quelque part. Nous parlons de toutes sortes de données structurées et semi-structurées qui sont collectées à partir de multiples sources de données : applications mobiles, applications web, journaux d’activité, journaux téléphoniques, médias sociaux et des centaines d’autres sources.

Toutes ces données combinées constituent la veille économique dont les organisations ont besoin pour prendre des décisions commerciales stratégiques.

Les entrepôts de données, qui étaient les méthodes traditionnelles de stockage des données d’entreprise, exigent que les données soient structurées. Vous ne pouviez pas déverser des données dans un entrepôt de données sans les trier ou les aligner sur la structure définie.

Les lacs de données ont permis de surmonter cette limitation. Grâce à la mise en œuvre de pipelines de données, toutes les sources de données pouvaient être transportées vers le lac et y rester jusqu’à ce que l’entreprise ait besoin de données pour l’analyse, le reporting et la BI.

Si les lacs de données ont résolu le problème de la rétention des données, ils ont posé un défi de taille, celui de la qualité des données.

Comme les données sont simplement déversées dans le système, les analystes ne semblent avoir aucun moyen de déterminer la qualité des données. Un contrôle initial n’a pas été effectué. En outre, le plus grand défi à la lumière des récentes réglementations est la confidentialité des données et la conformité des données. Sans personne pour rendre compte de la qualité des données, les organisations sont perdues lorsqu’elles traitent des données brutes.

Entre dans l’ingestion de données.

Comment l’ingestion de données aide-t-elle à relever les défis du lac de données ?

L’ingestion de données est la couche entre les sources de données et le lac de données lui-même. Cette couche a été introduite pour accéder aux données brutes des sources de données, les optimiser et les ingérer ensuite dans le lac de données.

Pourtant, il est surprenant de constater que l’ingestion de données est utilisée comme une réflexion après coup ou après l’insertion des données dans le lac. En fait, la plupart des entreprises passent complètement à côté du processus d’ingestion des données car elles sous-estiment la complexité du transfert des données des sources de données vers le lac de données. Ce n’est qu’au moment critique où ils ont besoin de données qu’ils se rendent compte qu’ils ont un défi important à relever.

Si l’on y réfléchit bien, l’objectif d’un lac de données est de stocker des données qui peuvent être utilisées ultérieurement sans se soucier de leur structure – mais cela ne signifie pas littéralement qu’il faut les ingérer dans le système sans les nettoyer ou s’assurer qu’elles apportent une valeur ajoutée.

Si les données ne sont pas gérées, le lac de données devient un marécage de données, où des données confuses se trouvent dans un référentiel qui ne peut être ni utilisé ni analysé. Cela va à l’encontre de l’objectif d’un lac de données, et c’est donc la principale cause d’échec de la plupart des projets de lac de données.

Répétons-le :

L’ingestion est un processus planifié qui doit être effectué séparément avant l’entrée des données dans le système. Ce processus planifié doit suivre l’objectif de disposer de données complètes, précises et cohérentes dans le temps.

Notez que l’ingestion de données ne signifie pas le perfectionnement des données brutes. Il permet simplement de maintenir une organisation de base où les doublons sont supprimés, les informations incomplètes ou nulles sont mises en évidence – ce qui facilite la disponibilité de tout ensemble de données pour une analyse immédiate.

Fonctions d’ingestion de données

Si la plupart des lacs de données intègrent aujourd’hui l’ingestion de données, des fonctions clés sont souvent omises. Voici trois fonctions importantes de l’ingestion qui doivent être mises en œuvre pour qu’un lac de données dispose de données utilisables et précieuses.

Le processus de collecte des données : L’objectif principal de l’ingestion de données est de collecter des données provenant de sources multiples dans des formats multiples – structurés, non structurés, semi-structurés ou multi-structurés, de les rendre disponibles sous forme de flux ou de lots et de les déplacer dans le lac de données.
Le processus de filtrage : À ce stade précoce du cycle de vie des données, les données passent par un processus de filtrage et d’assainissement de base au cours duquel des activités d’analyse et de déduplication sont effectuées. D’autres opérations complexes, telles que l’identification et la suppression des valeurs de données invalides ou nulles, peuvent également être effectuées à l’aide de scripts.
Le processus de transport : Le transport des données vers leurs magasins respectifs au sein du lac de données est un processus qui dépend de la clarté des règles de routage et des procédures d’automatisation mises en place.

Ingestion par lots ou en continu

Il existe deux types de modèles d’ingestion, qui dépendent tous deux du type d’exigences ou d’attentes des entreprises vis-à-vis de leurs données.

Traitement par lots : Il s’agit du type le plus courant d’ingestion de données où des groupes de données sources sont périodiquement collectés et envoyés au système de destination. Il peut s’agir d’un simple calendrier dans lequel les données sources sont regroupées en fonction d’un ordre logique ou de certaines conditions. Le traitement par lots est généralement plus facile à gérer via l’automatisation et constitue également un modèle abordable.

Streaming : Il s’agit d’un traitement en temps réel qui n’implique aucun regroupement. Les données sont chargées dès qu’elles apparaissent et sont reconnues par la couche d’ingestion. Bien qu’il s’agisse d’un modèle coûteux et plus complexe, il fonctionne efficacement pour les organisations qui ont besoin de données immédiates, continues et rafraîchies.

Les défis de l’ingestion du lac de données

Si l’ingestion de données tente de résoudre les problèmes liés aux lacs de données, elle n’est pas sans poser son lot de difficultés. Certaines difficultés peuvent avoir un impact sur la couche d’ingestion, ce qui se répercute sur les performances du lac de données.

Examinons quelques défis majeurs.

Gérer le volume de données entrantes avec rapidité

Les volumes de données ont explosé et, à mesure que l’écosystème mondial devient plus connecté et intégré, les volumes de données vont augmenter de manière exponentielle. De plus, les sources de données elles-mêmes évoluent constamment, ce qui signifie que les lacs de données et les couches d’ingestion de données doivent être suffisamment robustes pour ingérer ce volume et cette diversité de données. Le défi est encore plus difficile à relever lorsque les organisations mettent en œuvre un processus d’ingestion de données en temps réel qui exige que les données soient mises à jour et ingérées à une vitesse rapide.

L’ingestion de données et les lacs de données étant des technologies relativement récentes, elles doivent encore atteindre une vitesse fulgurante. Selon l’application, le traitement des données en temps réel peut prendre jusqu’à 10 minutes pour chaque mise à jour.

Respecter les nouvelles directives en matière de conformité des données

La conformité des données légales des pays du monde entier a rendu difficile pour les entreprises de trier leurs données en fonction des conformités réglementaires. Les entreprises doivent se conformer au GDPR européen ainsi qu’à des dizaines d’autres règlements de conformité aux États-Unis. Les données doivent donc être triées en fonction de ces réglementations au niveau de la couche d’ingestion pour éviter tout problème en aval. Cela nécessite une planification globale de l’ingestion des données.

Nettoyage des données pour la préparation des données

C’est un défi très négligé des lacs de données. D’une certaine manière, on suppose que le processus de nettoyage ne doit avoir lieu que lorsque les données sont nécessaires à l’analyse. Non seulement cette approche provoque d’importants goulets d’étranglement, mais elle expose l’entreprise aux deux autres défis susmentionnés que sont la confidentialité et la sécurité des données.

Le nettoyage des données pour la préparation des données doit idéalement commencer avant que les données ne soient ingérées dans le lac. En effectuant un nettoyage de base, l’équipe chargée des données ne perdra pas son temps à essayer de donner un sens à des données brutes. À ce stade, les données brutes doivent être filtrées pour éviter les doublons, les champs incomplets ou invalides, etc. Une fois cette étape franchie, les analystes peuvent choisir d’effectuer d’autres réglages ou optimisations en fonction de leur objectif.

Qualité des données dans l’ingestion du lac de données

Que ce soit lors de la phase d’ingestion des données ou de leur transformation, une solution de qualité des données sera nécessaire pour traiter les données avant qu’elles ne soient utilisées pour l’analyse. Quand nous parlons de qualité des données, nous nous concentrons principalement sur :

Nettoyage des données brutes pour éliminer les fautes de frappe, les problèmes structurels tels que l’orthographe, les minuscules et les majuscules, etc.
Champs non valables, incomplets, nuls ou vides
Plus important encore, les données dupliquées qui deviennent un goulot d’étranglement majeur en bout de ligne.

Pour effectuer le nettoyage des données, vous devrez mettre en œuvre un outil de qualité des données qui vous permettra de traiter les données brutes directement à partir de votre source de données.

DataMatch Enterprise de Data Ladder est un outil puissant qui peut être utilisé pour nettoyer, rapprocher et déduire des données brutes. Il permet l’intégration de plus de 150 applications et bases de données, ce qui signifie que vous pouvez l’utiliser comme un outil pour capturer vos données avant de les transférer dans le lac de données.

Il peut également être utilisé lors de la phase de transformation des données si vous souhaitez approfondir les questions relatives à vos données, telles que le profilage des données, la vérification et la validation des adresses, etc.

L’outil est déployé sous la forme d’une solution sur site que vous pouvez utiliser sur votre bureau ou sur un serveur en nuage. Point positif ? Cet outil effectue à la fois des traitements par lots et en temps réel, tout en vous permettant de planifier les processus futurs.

La ligne de fond

Il est important de mettre en œuvre une infrastructure d’ingestion appropriée qui permet au lac de données de stocker des données complètes, opportunes et prêtes à être consommées. Contrairement à un entrepôt de données, les lacs de données excellent dans l’utilisation de la disponibilité d’énormes quantités de données cohérentes pour améliorer l’analyse des décisions en temps réel. Elle n’est pas seulement utile dans les applications avancées d’analyse prédictive, mais peut également être productive dans le cadre de rapports organisationnels fiables, en particulier lorsqu’elle contient différents modèles de données.

Cependant, pour que les lacs de données fonctionnent, l’ingestion des données doit être planifiée comme une activité distincte et la qualité des données doit être l’objectif principal. Lorsque la qualité des données n’est pas prise en compte, cela crée une série de problèmes qui affectent l’ensemble du processus, de la collecte des données au produit final.

Vous voulez en savoir plus sur la façon dont nous pouvons vous aider pendant le processus d’ingestion des données ? Prenez contact avec nous et laissez notre architecte de solutions vous guider tout au long de votre parcours.

Try data matching today

No credit card required

« * » indique les champs nécessaires

Want to know more?

Check out DME resources

Aïe ! Nous n’avons pas retrouvé votre formulaire.

PAR CARACTÉRISTIQUE

PAR CAS D'UTILISATION

PAR INDUSTRIE

NOS PRODUITS

À PROPOS DE NOUS

CLIENTS

COMPARER

CONNAISSANCES

SUPPORT