En février 2020, Facebook a fourni un ensemble de données anonymes à Social Science One dans le but d’obtenir des informations sur les communications et les comportements sur les médias sociaux. Cet ensemble de données comprenait des informations sur 38 millions d’URL partagées publiquement plus de 100 fois.
Le 20 septembre 2021, Facebook a reconnu auprès de chercheurs qu’il y avait de graves erreurs dans cet ensemble de données. Le réseau social s’est excusé pour l’impact négatif que cela a eu sur leurs recherches. Il s’est avéré que les données de la moitié des utilisateurs américains avaient été omises, car ils étaient moins polarisés politiquement que les autres utilisateurs. Une porte-parole de Facebook a expliqué que cette erreur technique était liée à l’ensemble de données sur les URL partagées.
Aujourd’hui, les données sont sans aucun doute l’un des actifs les plus importants d’une organisation. Elles sont utilisées dans toutes les opérations quotidiennes d’une entreprise, renforcent ses initiatives de veille stratégique et facilitent la réalisation de plus de 100 recherches sur Facebook. Cependant, sans techniques et meilleures pratiques en matière de qualité des données permettant de détecter et de résoudre les problèmes rapidement, une entreprise risque de perdre beaucoup d’argent et de prendre du retard.
Dans cet article, nous examinerons plusieurs bonnes pratiques et processus de qualité des données qui peuvent contribuer à une qualité élevée des données au niveau de l’entreprise. En plus de souligner ce qui est nécessaire, je vous donnerai également des conseils concrets pour atteindre cet objectif.
1. Identifier la relation entre les données et les performances de l’entreprise
Nous commençons par cette pratique, car c’est l’élément le plus important pour une gestion, une adoption et une utilisation appropriées des données au sein d’une organisation. Il est essentiel de comprendre comment les données contribuent aux objectifs commerciaux.
Cela peut impliquer une analyse du rôle des données à un niveau élevé, en mettant en évidence les domaines où elles sont utilisées. Il est également important d’aller plus en détail, en examinant le rôle des données dans les opérations quotidiennes, les processus commerciaux et l’échange d’informations entre les départements.
Une question cruciale à se poser est : si ces processus ou domaines ne sont pas facilités par des données de qualité, quel impact cela peut-il avoir sur les indicateurs clés de performance qui en découlent ?
Par exemple, si les cadres fixent des objectifs de revenus pour le prochain trimestre en se basant sur les données de vente du trimestre précédent, mais que ces données présentent des problèmes de qualité, cela peut avoir un impact négatif sur les opérations et la réputation de l’entreprise. Il est essentiel de fixer des attentes réalistes pour les représentants commerciaux et de fournir des chiffres de revenus précis.
Comprendre le rôle des données dans chaque processus de l’entreprise permet de hiérarchiser leur qualité et de convaincre les parties prenantes de leur importance.
2. Évaluer et maintenir la définition de la qualité des données
Une fois que vous comprenez l’impact des données sur votre entreprise, la prochaine étape consiste à garantir la qualité des données dans tous les ensembles de données de votre organisation. Cependant, il est essentiel de comprendre la définition de la qualité des données, car elle peut varier d’une entreprise à l’autre.
La qualité des données est définie comme le degré de conformité des données à l’objectif prévu. Pour comprendre la signification de la qualité des données dans votre cas, il est essentiel de connaître l’objectif visé.
Pour définir la qualité des données pour votre entreprise, vous devez commencer par identifier :
- Les sources qui génèrent, stockent ou manipulent les données
- Les attributs stockés par chaque source
- Le glossaire des métadonnées définissant chaque attribut
- Les critères d’acceptabilité des valeurs de données stockées dans les attributs
- Les mesures de qualité des données qui évaluent la qualité des données stockées
Par exemple, vous pouvez concevoir des modèles de données mettant en évidence les parties nécessaires des données, en déterminant leur quantité et leur qualité suffisantes. Vous pouvez également définir des mesures de qualité des données, en exigeant que les données soient plus précises et fiables plutôt que simplement complètes.
Une définition normalisée de la qualité des données permet à tous les membres de l’organisation de comprendre ce qu’elle signifie, à quoi elle ressemble et comment elle peut être mesurée. Cela facilite la satisfaction des exigences en matière de qualité des données.
3. Définir les rôles et les responsabilités liés aux données dans toute l’organisation
Il est largement reconnu que la garantie de la qualité des données au niveau de l’entreprise nécessite l’implication et l’adhésion de la direction générale. Cependant, plutôt que de simplement impliquer certaines personnes dans des silos, il est important d’engager les personnes dans les processus existants et de les rendre responsables de la qualité des données, de la direction de haut niveau au personnel opérationnel.
Parmi les rôles clés en matière de données et leurs responsabilités, citons :
- Le Chief Data Officer (CDO) : un représentant des données au sein de la direction de haut niveau, chargé de concevoir des stratégies pour assurer une gestion efficace des données, surveiller la qualité des données et promouvoir l’adoption des données dans toute l’organisation.
- L’intendant des données : chargé de contrôler la qualité des données, de s’assurer que les données sont adaptées à l’utilisation prévue et de gérer les métadonnées.
- Le responsable des données et de l’analyse (D&A) : chargé de maîtriser les données dans toute l’organisation et de valoriser leur utilisation.
En attribuant des rôles et des responsabilités dans le domaine des données et en donnant du pouvoir aux collaborateurs pour s’exprimer sur les questions cruciales liées aux données, on peut créer une culture des données réussie dans l’ensemble de l’organisation.
4. Former et éduquer les équipes sur les données
Dans une enquête réalisée auprès de 9000 employés occupant différents postes au sein d’une organisation, seuls 21 % d’entre eux avaient confiance en leurs compétences en matière de données.
Bien que l’attribution de rôles et de responsabilités liés aux données puisse avoir un impact positif sur votre entreprise, il est essentiel de comprendre que chaque individu génère, manipule ou traite des données dans ses opérations quotidiennes. Il est donc important de former et d’éduquer toutes les équipes sur la manière de traiter les données de l’organisation.
Cela peut impliquer la création de plans de maîtrise des données et la conception de cours qui initient les équipes aux données, en expliquant :
- Le contenu des données
- La signification de chaque attribut de données
- Les critères d’acceptabilité pour la qualité des données
- La bonne manière de saisir et de manipuler les données
- Les données à utiliser pour obtenir des résultats spécifiques
Ces cours peuvent être adaptés en fonction de la fréquence d’utilisation des données par certains rôles (quotidiennement, hebdomadairement ou annuellement).
La capacité de lire, de comprendre et d’analyser correctement les données à tous les niveaux permet à chaque employé de poser les bonnes questions de manière optimale. Cela garantit également l’efficacité opérationnelle du personnel et réduit les erreurs lors de la communication de questions liées aux données.
5. Surveiller en permanence l’état des données grâce au profilage des données
Assurer la qualité des données et la maintenir dans le temps sont deux choses différentes. C’est pourquoi il est essentiel de mettre en place un processus systématique de surveillance continue de l’état des données et de profilage des données afin de découvrir les détails cachés de leur structure et de leur contenu.
La portée et le processus de l’activité de profilage des données peuvent être déterminés en fonction de la définition de la qualité des données dans votre entreprise et de la manière dont elle est mesurée.
Cela peut être réalisé en configurant et en programmant des rapports quotidiens ou hebdomadaires sur le profilage des données. Vous pouvez également concevoir des flux de travail personnalisés pour alerter les responsables des données si la qualité des données passe en dessous d’un seuil acceptable.
Un rapport de profilage des données met généralement en évidence plusieurs éléments concernant les ensembles de données examinés, tels que :
- Le pourcentage de valeurs de données manquantes ou incomplètes.
- Le nombre d’enregistrements pouvant être des doublons.
- L’évaluation des types, des tailles et des formats de données pour identifier les valeurs de données invalides.
- L’analyse statistique des colonnes de données numériques pour évaluer les distributions.
Cette pratique permet de détecter les erreurs de données dès le début du processus et d’éviter qu’elles ne se propagent aux clients. Elle permet également aux responsables des données de rester informés de la qualité des données et de prendre les bonnes décisions pour résoudre les problèmes relevés dans les profils de données.
6. Concevoir et maintenir des pipelines de données pour obtenir une source unique de vérité
Un pipeline de données est un processus systématique qui permet de collecter, de traiter et de transformer les données à partir de différentes sources, avant de les charger dans un référentiel de destination.
Il est essentiel que les données brutes subissent plusieurs contrôles de validation avant d’être considérées comme utilisables et mises à disposition de tous les utilisateurs de l’entreprise.
Pour construire un pipeline de données, vous devez revenir à l’étape 2 : définir et maintenir la qualité des données. Selon cette définition, vous pouvez décider des opérations nécessaires sur les données entrantes pour atteindre le niveau de qualité défini.
Voici quelques exemples d’opérations qui peuvent être effectuées dans votre pipeline de données :
- Remplacer les valeurs nulles ou vides par un terme standard.
- Transformer les valeurs des données selon le modèle et le format définis.
- Analyser la syntaxe des champs pour les diviser en plusieurs colonnes.
- Remplacer les abréviations par des mots complets.
- Remplacer les surnoms par les noms appropriés.
- Fusionner les enregistrements suspects de doublons avec les enregistrements existants.
Un pipeline de données agit comme une barrière de qualité des données pour vos ensembles de données. Sa conception garantit la cohérence des données entre toutes les sources et prévient toute divergence avant même que les données ne soient chargées dans le référentiel de destination.
7. Identifier les causes profondes des erreurs de qualité des données
Jusqu’à présent, nous avons principalement parlé de la manière de suivre la qualité des données et d’éviter les erreurs. Cependant, malgré tous les efforts déployés, il est probable que certaines erreurs se retrouvent dans le système. Il est donc essentiel non seulement de les corriger, mais aussi de comprendre comment ces erreurs se sont produites afin d’éviter qu’elles ne se reproduisent.
Une analyse des causes profondes des erreurs de qualité des données peut impliquer l’examen du dernier rapport de profilage des données et la collaboration avec votre équipe pour trouver des réponses à des questions telles que :
- Quelles erreurs de qualité des données ont été rencontrées ?
- D’où proviennent-elles ?
- Quand sont-elles apparues ?
- Pourquoi ces erreurs se sont-elles retrouvées dans le système malgré les contrôles de validation de la qualité des données ? Avons-nous manqué quelque chose ?
- Comment éviter que de telles erreurs ne se reproduisent dans le système ?
Comprendre les problèmes de qualité des données permet de les éliminer à long terme. Vous n’êtes pas obligé de travailler de manière réactive et de corriger les erreurs au fur et à mesure qu’elles se produisent. Grâce à une approche proactive, vous pouvez réduire au minimum les efforts consacrés à la correction des erreurs de qualité des données et laisser les processus de qualité des données gérer la plupart des problèmes associés aux données.
8. Utiliser la technologie pour atteindre et maintenir la qualité des données
Cela nous amène à notre dernière meilleure pratique : utiliser la technologie pour mettre en place un cycle de vie durable de gestion de la qualité des données. Aucun processus ne peut être performant et offrir le meilleur retour sur investissement s’il n’est pas automatisé et optimisé par la technologie.
Investir dans l’adoption d’un système technologique offrant toutes les fonctionnalités nécessaires pour garantir la qualité des données à tous les niveaux est essentiel. Ces fonctionnalités peuvent inclure :
- L’importation de données : intégrer des données provenant de plusieurs sources.
- Le profilage des données : évaluer les données pour générer des rapports sur la qualité des données.
- Le nettoyage des données : mettre en évidence les domaines nécessitant un nettoyage, une normalisation et une transformation des données, puis proposer des solutions.
- La mise en correspondance des données : effectuer des appariements exacts et flous avec une grande précision, et adapter les algorithmes en fonction de la nature des données.
- La suppression des doublons : relier les enregistrements et trouver la source unique de vérité.
- L’exportation des données : exporter ou charger les résultats.
En plus de ces fonctions de gestion de la qualité des données, certaines organisations investissent dans des technologies offrant également des capacités de gestion centralisée des données, comme la gestion des données de référence (MDM). Cependant, il est important de comprendre les besoins spécifiques de votre entreprise pour évaluer quel type de technologie correspond le mieux à vos attentes.
L’utilisation de la technologie pour la mise en œuvre de processus répétitifs permet d’améliorer l’efficacité opérationnelle, d’éliminer les tâches redondantes, d’améliorer l’expérience client et d’obtenir des informations commerciales fiables.
En conclusion, la mise en place de mesures de qualité des données cohérentes, automatisées et reproductibles peut aider votre organisation à atteindre et à maintenir la qualité des données dans tous les ensembles de données. Chez Data Ladder, nous offrons des solutions de qualité des données depuis plus de dix ans. Notre produit phare, DataMatch Enterprise, vous permet de gérer la qualité des données de bout en bout, y compris le profilage, le nettoyage, la mise en correspondance, la déduplication et la fusion des données. Vous pouvez télécharger notre version d’essai gratuite dès aujourd’hui ou programmer une session personnalisée avec nos experts pour découvrir comment notre produit peut vous aider à mettre en œuvre les meilleures pratiques en matière de qualité des données au niveau de l’entreprise.