Blog

Traitement par lots ou validation de la qualité des données en temps réel

Une étude récente montre que 24 % des équipes chargées des données utilisent des outils pour détecter les problèmes de qualité des données, mais ceux-ci ne sont généralement pas résolus. Cela signifie que la plupart des outils de qualité des données ont la capacité de détecter les problèmes et de déclencher des alertes en cas de détérioration de la qualité des données en dessous d’un seuil acceptable. Mais ils laissent de côté un aspect important : l’automatisation de l’exécution des processus de qualité des données (que ce soit en fonction du temps ou de certains événements) et la résolution automatique des problèmes. L’absence de cette stratégie oblige à une intervention humaine – ce qui signifie que quelqu’un doit déclencher, superviser et terminer les processus de qualité des données dans l’outil pour résoudre ces problèmes.

Il s’agit d’une surcharge importante, en particulier dans les organisations qui produisent chaque jour d’énormes quantités de données. C’est pourquoi les entreprises doivent embaucher davantage de personnel et consacrer davantage de ressources à l’exécution régulière des contrôles de qualité des données configurées sur les nouvelles données à venir. Mais certaines organisations envisagent la possibilité d’automatiser la vérification de la qualité des données à grande échelle pour un traitement par lots à certains moments de la journée ou de la semaine.

Dans ce blog, nous allons examiner la validation programmée de la qualité des données, et voir comment elle se compare à la validation instantanée de la qualité des données.

Validation de la qualité des données

Avant d’aborder les deux manières différentes de gérer la validation de la qualité des données, il est important de revoir ce que recouvre réellement la validation de la qualité des données.

La plupart des données produites aujourd’hui dans les organisations présentent diverses formes d’erreurs de qualité. C’est pourquoi les responsables des données conçoivent des cadres de gestion de la qualité des données ou des plans d’amélioration qui permettent d’évaluer, d’identifier, de corriger et de surveiller les problèmes de qualité des données. Dans ce cadre, une liste de processus de qualité des données est configurée pour être exécutée sur les nouvelles données afin de garantir que toute erreur éventuelle soit corrigée à temps. Ces processus comprennent généralement :

  1. Recueillir des informations
    1. Récupération de nouvelles données à partir de sources disparates.
  2. Traitement
    1. Profiler les données pour mettre en évidence les erreurs,
    2. Exécuter des techniques d’analyse, de nettoyage et de normalisation des données pour obtenir une vue cohérente,
    3. Correspondance des enregistrements qui appartiennent à la même entité (correspondance exacte sur un identifiant unique ou correspondance floue sur une combinaison de champs),
    4. Fusionner les enregistrements pour supprimer les informations inutiles et obtenir une source unique de vérité.
  3. Chargement de la sortie
    1. Stocker la source unique de vérité à la source de destination.

Quand valider la qualité des données ?

L’exécution de ces processus sur les nouvelles données peut avoir lieu à deux moments : vous pouvez soit programmer la validation de la qualité des données à un moment ultérieur de la journée ou de la semaine (planifié), soit la valider immédiatement sur chaque flux de données à venir avant qu’il ne soit stocké dans la base de données (en temps réel).

Examinons les deux plus en détail.

Planification de la validation de la qualité des données pour le traitement par lots

Le traitement par lots consiste à exécuter le même ensemble d’opérations de manière répétitive sur un volume important de données à un moment programmé.

Le concept de traitement par lots est assez courant lorsqu’il s’agit de traitement de données. Le volume de données augmentant de manière exponentielle, la validation des flux de données à venir en temps réel peut être très difficile et limitée. C’est pourquoi le traitement par lots de grandes quantités de données à un moment précis de la journée ou de la semaine peut être très efficace.

Voici quelques aspects à prendre en compte lors de la planification des tâches de validation de la qualité des données par le biais de la gestion automatisée de la qualité des données :

  1. Quelles sont les tâches à exécuter ?
  2. Dans quel ordre les tâches doivent-elles être exécutées ?
  3. Quelles sont les variables configurées et les définitions des tâches à exécuter (le cas échéant) ?
  4. Quels sont les emplacements des entrées et des sorties ?
  5. Quand déclencher l’exécution des tâches ?

Scénario : Planification de la validation de la qualité des données pour les données clients

En fonction de votre cadre de gestion de la qualité des données, vous pouvez configurer plusieurs tâches sur un ensemble de données. Par exemple, vous capturez et stockez probablement les informations relatives aux clients à plusieurs endroits dans votre organisation ; un outil d’analyse suit l’activité du site web, un outil d’automatisation du marketing enregistre l’activité du courrier électronique, un logiciel de comptabilité stocke les transactions de facturation, un CRM conserve les informations de contact des clients, etc. Mais pour rendre ces données utilisables, vous avez probablement besoin qu’elles le soient :

  1. Exempt d’erreurs de qualité des données, telles que le formatage, les fautes d’orthographe, le caractère incomplet, etc.
  2. Agrégés ensemble pour représenter une source unique de vérité sur chaque client.

Une manière efficace de gérer ce scénario est de choisir une approche automatisée où un service d’arrière-plan exécute les tâches de validation de la qualité des données (mentionnées ci-dessus) à des moments programmés. Cela permettra de s’assurer que les données des clients sont récupérées, traitées et chargées vers une source de destination à la fin de chaque journée (par exemple), et que les frais généraux manuels de gestion de ces processus sont réduits.

Avantages et inconvénients de la planification de la validation de la qualité des données

Voici quelques avantages et défis de la programmation de la validation de la qualité des données :

Pour

  1. L’un des principaux avantages du traitement des données par lots est l’utilisation efficace des ressources. Non seulement vous réduisez et éliminez l’intervention humaine dans l’exécution, mais vous vous assurez également que d’autres ressources (telles que la puissance de calcul des ordinateurs de bureau ou des serveurs) sont utilisées au meilleur moment – lorsqu’elles sont inactives et disponibles.
  2. Un autre avantage est qu’il réduit la probabilité d’erreur humaine et produit des résultats cohérents à intervalles réguliers. Les mêmes tâches, si elles sont traitées par des individus, sont susceptibles d’être en retard ou incohérentes en raison de la diversité des jugements humains.
  3. Le traitement programmé améliore également l’efficacité et la productivité de l’entreprise, car les résultats sont prêts à temps avec un minimum de frais généraux et d’implication.
  4. La planification des tâches de qualité des données en masse et en une seule fois est plus simple et moins complexe que la conception d’une architecture de validation en temps réel.
  5. Vous n’avez généralement pas besoin de matériel spécialisé pour exécuter des services d’arrière-plan planifiés, car il n’y a pas de besoin urgent de traitement rapide et de génération de résultats.

Cons

  1. L’un des principaux inconvénients du report de la validation de la qualité des données est le temps d’indisponibilité lorsque les données restent invalidées et attendent d’être traitées au moment prévu.
  2. Les tâches sont programmées pour être exécutées pendant les heures creuses – et si le service de programmation ne parvient pas à se déclencher (en raison d’un bug ou d’un pépin quelconque), les données peuvent être laissées sans traitement jusqu’à ce qu’un humain interagisse et les déclenche de force.
  3. Une expertise technique supplémentaire peut être nécessaire pour concevoir les tâches planifiées en vue d’une utilisation appropriée du matériel et de la puissance, ainsi que pour déclencher des alertes d’achèvement des tâches et des notifications d’erreur.

Mise en œuvre de la validation de la qualité des données en temps réel

La validation de la qualité des données en temps réel consiste à vérifier la qualité des données avant qu’elles ne soient stockées dans la base de données.

Pour conserver à tout moment une vue propre, normalisée et dédupliquée des données, celles-ci peuvent être validées avant d’être enregistrées dans la base de données. Cela peut être possible de deux manières :

  1. Mettre en œuvre des contrôles de validation des données sur tous les outils de saisie de données ; par exemple, les formulaires de sites web, les CRM, les logiciels de comptabilité, etc.
  2. Déployer un pare-feu ou un moteur central de qualité des données qui traite chaque flux de données entrant et le valide avant de le stocker dans la base de données.

Bien que le premier cas soit comparativement moins complexe sur le plan technique, il pourrait être difficile de synchroniser les contrôles de qualité des données et les fixations entre des applications disparates. C’est pourquoi de nombreuses organisations optent pour la deuxième solution, qui consiste à mettre en place un pare-feu de qualité des données au sein de leur architecture de gestion des données.

Certains conçoivent un pare-feu de qualité des données personnalisé pour leurs besoins spécifiques en matière de qualité des données, tandis que d’autres utilisent les services API de fournisseurs tiers et les intègrent dans leur architecture de données. Dans les deux cas, le même résultat est atteint : vous êtes en mesure de valider la qualité des données au moment de leur saisie ou avant leur stockage dans la base de données.

Scénario : Validation en temps réel de la qualité des données des clients

Dans le même exemple mentionné ci-dessus, vous pouvez choisir d’effectuer des contrôles de qualité des données sur les données clients à venir en temps réel. Lorsqu’une modification est apportée à un enregistrement client ou lorsqu’un nouvel enregistrement client est créé dans une application connectée, la mise à jour est d’abord envoyée au moteur central de qualité des données. Ici, la modification est vérifiée par rapport à la définition de la qualité des données configurée, en s’assurant par exemple que les champs obligatoires ne sont pas vides, que les valeurs respectent le format et le modèle standard, qu’un nouvel enregistrement client ne peut pas correspondre à un enregistrement client existant, etc.

Si des erreurs de qualité des données sont trouvées, une liste de règles de transformation est exécutée pour nettoyer les données. Dans certains cas, vous pouvez avoir besoin d’un responsable de la qualité des données pour intervenir et prendre des décisions lorsque les valeurs des données sont ambiguës et ne peuvent pas être bien traitées par les algorithmes configurés. Par exemple, il se peut qu’il y ait 60 % de chances qu’un nouvel enregistrement client soit un doublon, et quelqu’un devra vérifier manuellement et résoudre le problème.

Avantages et inconvénients de la validation instantanée de la qualité des données

Voici quelques avantages et défis de la validation instantanée de la qualité des données :

Pour

  1. L’un des principaux avantages de la validation de la qualité des données en temps réel est qu’elle garantit un état fiable des données à tout moment en validant et en corrigeant la qualité des données instantanément après chaque mise à jour.
  2. Le pare-feu de qualité des données étant mis en œuvre de manière centralisée, vous pouvez obtenir une qualité de données cohérente dans tous les magasins de données de l’entreprise.
  3. Il peut vous aider à mettre en œuvre des flux de travail personnalisés en plus de votre architecture de gestion des données existante. Par exemple, vous pouvez acheminer certaines données vers des emplacements spécifiques après le nettoyage ou déclencher des alertes si un élément nécessite une attention urgente.
  4. Un pare-feu de qualité des données qui met en œuvre un mécanisme frontal pour l’examen des données par les responsables des données peut également aider à remplacer les résultats par défaut dans des cas particuliers, comme le remplacement des décisions incorrectes prises par les algorithmes de correspondance. D’autre part, le traitement par lots élimine complètement l’intervention humaine, ce qui entraîne la présence de quelques faux négatifs ou positifs dans votre ensemble de données.
  5. Avec cette approche, vous pouvez activer le traitement multithread, ce qui signifie que le pare-feu peut servir plusieurs requêtes en même temps, provenant de diverses applications.

Cons

  1. Le déploiement d’un moteur central de qualité des données est comparativement plus complexe sur le plan technique. Et comme toutes les données passent par cette voie, elles ont un impact élevé et ne laissent aucune place aux erreurs.
  2. Cette approche peut nécessiter un matériel spécialisé pour un calcul rapide et instantané, et la génération de résultats précis.
  3. La mise en œuvre de la validation de la qualité des données en temps réel peut nécessiter une expertise technique et un savoir-faire plus poussés, ainsi qu’un réexamen de l’ensemble de l’architecture de gestion des données. Cela rend probablement la mise en œuvre plus risquée et complexe.

Que choisir : validation de la qualité des données programmée ou en temps réel ?

Comme toujours, la réponse courte à cette question est la suivante : cela dépend.

Certains de ces facteurs dépendants comprennent :

  1. Vos règles et exigences en matière de qualité des données,
  2. La fréquence à laquelle vos opérations commerciales demandent des données nouvelles ou mises à jour,
  3. La quantité d’efforts, de temps et de coûts que vous êtes prêt à investir,
  4. L’ampleur de l’impact que votre entreprise peut supporter lors de la mise en œuvre de l’une ou l’autre approche.

Le meilleur des deux mondes

Parfois, les organisations utilisent les deux approches en même temps. Cela peut se produire de trois façons :

  1. Soit les données sont réparties entre les deux approches (une partie est traitée avec le service programmé tandis que l’autre est traitée en temps réel),
  2. Chaque approche traite un ensemble différent de fonctions de qualité des données sur les mêmes données (le nettoyage et la normalisation des données sont exécutés en temps réel et les techniques complexes telles que la correspondance floue, la déduplication des données ou la purge par fusion sont exécutées par lots à un moment programmé), ou
  3. Les scénarios à faible impact (où la précision est plus importante que la vitesse) sont traités avec un traitement programmé et les scénarios à fort impact (où la vitesse est plus importante que la précision) peuvent être traités avec une validation en temps réel.

Conclusion

En raison de la nature complexe et délicate des erreurs de qualité des données et de leurs solutions possibles, il est devenu impératif d’adopter des approches créatives. Cela permettra de réduire au minimum les erreurs de qualité des données dans le système et de garder la plupart des données propres et standardisées.

Pour mettre en œuvre des approches créatives, vous avez besoin d’outils et de technologies créatifs qui peuvent soutenir l’exécution de vos plans. Mais le plus souvent, il est moins probable qu’un seul outil ou un seul fournisseur puisse répondre à vos besoins en matière de qualité des données (sous toutes ses formes).

DataMatch Enterprise est un outil exceptionnel qui offre sous toutes ses formes ses fonctions de qualité de données exclusives et de pointe :

  1. Une application de bureau avec une interface utilisateur intuitive,
  2. Un service d’ordonnancement qui traite les fichiers de données en vrac au moment prévu, et
  3. Un pare-feu ou une API pour la qualité des données qui expose toutes les fonctions pour le traitement en temps réel.

Pour en savoir plus sur la façon dont DataMatch Enterprise peut vous aider, vous pouvez télécharger un essai gratuit aujourd’hui ou réserver une démonstration avec un expert.

In this blog, you will find:

Try data matching today

No credit card required

« * » indique les champs nécessaires

Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Hidden
Ce champ n’est utilisé qu’à des fins de validation et devrait rester inchangé.

Want to know more?

Check out DME resources

Merging Data from Multiple Sources – Challenges and Solutions

Aïe ! Nous n’avons pas retrouvé votre formulaire.