Pramana
16 mai 2023 Debunkages #Data #Qualité des Données

La Data Quality : belle de loin, loin d’être belle

Pramana

Cet article a pour objectif de vous convaincre d’une réalité bien terre-à-terre : l’écrasante majorité des problèmes de qualité de données ne sont pas informatiques ou techniques, mais humains et organisationnels. Oubliez donc la froide beauté des tableaux de bords , des automatismes, du machine learning et des règles de gestion : pour résoudre durablement ces problèmes, il faut se confronter à l’humain.

Des données partout, la qualité nulle part

De nos jours, des solutions informatiques raffinées collectent, stockent et exploitent des données complexes dans tous les secteurs. Elles ont intégré même les plus récalcitrants d’entre eux, comme le Droit ou la Santé.

Le secteur du Droit est par tradition éloigné du numérique. Malgré tout, il exploite maintenant lui-aussi des données structurées. À titre d’exemple, l’état d’inscription au Tableau de chaque avocat français, qui lui permet de plaider, est passé dans un premier temps du poster imprimé aux sites internet maintenus à la main, puis, dès 2019, à des CRM remplis d’automatismes et interfacés. Tout ceci dans un secteur pourtant fortement attaché au papier.

Autre exemple du bouleversement en cours, dans le monde de l’assurance-santé, des modèles de machine learning sont utilisés pour de la classification de profils ou d’événements à fort risque de fraude. C’est la digitalisation des parcours de santé qui permet de nourrir ces algorithmes avec des données structurées, et de s’éloigner des ordonnances manuscrites.

“Les problèmes de qualité des données sont majeurs”

Pour avoir participé à plusieurs missions dans ces secteurs, les problèmes de qualité des données y sont majeurs. A titre d’exemple, comment identifier des comorbidités quand celles-ci ne sont pas saisies dans les formulaires prévus à cet effet ? Comment exploiter des adresses mail quand le champ correspondant est utilisé pour prendre des notes ?

Ces exemples ne sont pas des épiphénomènes. Les projets de machine learning comportent systématiquement des phases de Data preparation, pre-processing et cleansing souvent estimées par les experts à 80% de la charge totale. Du côté des décideurs, la situation n’est pas meilleure : plus de la moitié des dirigeants  [1]

Les conséquences ? Des projets ralentis, des informations cruciales manquantes, une crise de la confiance quant aux outils et aux décisions qu’ils assistent, une augmentation du risque réglementaire, et bien d’autres problèmes.

La Data Quality : belle de loin…

C’est bien souvent dans ce contexte dégradé que les entreprises déclenchent des initiatives de Data Quality. La tentation est alors de se reposer principalement sur les solutions techniques.

Cette tentation est d’abord liée aux rôles qui détectent ces problèmes de qualité . Quand le métier détecte un problème de données dans une simulation, un calcul métier, il a le réflexe de pointer vers la DSI, chez qui il a l’habitude d’ouvrir des tickets.
Côté DSI, c’est au sein de projets dont ils ont déjà la charge (implémentation d’un ETL, développement de fonctionnalités outils spécifiques) qu’apparaissent les erreurs de données, qui prennent donc place dans une feuille de route au milieu de problèmes techniques. C’est la première raison pour laquelle les solutions aux problèmes de qualité des données sont pensées comme étant avant tout techniques.

Mais cette tentation est, selon moi, aussi liée à l’attrait esthétique  des solutions techniques et conceptuelles.

En effet, un modèle de données, c’est magnifique. Une ontologie, c’est splendide même. Les regards aguerris y reconnaissent des motifs familiers et rassurants : une étoile, des flocons, de dignes pyramides bordées de piliers stratégiques, et d’augustes logos d’éditeurs qui cimentent une confiance inébranlable dans ces solutions techniques, des schémas et tableaux de bords qui ont le bon goût d’être « MECE » et des solutions de Data wrangling qui promettent du “Natural Language Processing ».

De même, en cas de problème de doublons dans un système ? Le premier réflexe est d’exporter, dédoublonner, puis réinjecter. “C’est l’affaire de cinq minutes dans Excel”, me disait un DSI de PME dans une mission précédente. « L’enfer est pavé de bonnes intentions » serait-on tenté de lui répondre…

“On ne peut pas automatiser l’erreur”

C’est là toute l’erreur de se reposer uniquement sur la technique, sur la technologie. Le solutionnisme technologique, voilà l’ennemi !

Car malheureusement, trouver les automatismes qui traitent tous les cas de figure, l’ontologie parfaite qui résoudra d’elle-même les problèmes de qualité, la correspondance directe en 1:N entre deux systèmes s’avère, dans la réalité, souvent impossible. On ne peut pas automatiser les réponses face à l’erreur humaine, contre le manque de formation, pour anticiper la créativité infinie et presque antagoniste d’un utilisateur.

En Data Quality, la confiance aveugle en de belles solutions numériques est une martingale qui a le même ennemi que celles des jeux de hasard : l’infini.

…Loin d’être belle

Reprenons l’exemple des notes prises dans un champ d’adresse mail. Sans aller rencontrer l’utilisateur, ce problème est impossible à expliquer/comprendre. Assis à son bureau, cependant, la raison devient limpide. Verbatim : “c’est plus pratique, ce champ-là, dès que je ne saisis pas une adresse mail, ça s’affiche en gros en rouge et ainsi mes notes sautent aux yeux”. La validation du format de données tant recommandée a eu ici l’effet inverse !

Une autre de mes missions m’a confronté à un souci de complétude des données pour lequel notre analyse des causes racines a soulevé une problématique tout aussi humaine : dans ce contexte et pour ce métier, j’ai découvert que les utilisateurs des tablettes de saisie ne savaient souvent pas lire. Encore une fois, quelle solution technique peut résoudre seule cette situation ? Un bon niveau de Data Quality ne s’atteint donc pas sans se confronter à l’humain, et ne se maintient pas sans changer l’organisation. Cette transformation est loin d’être évidente, facile ou systémique. Elle se confronte au métier, à l’enchaînement tangible des tâches. Une activité de Data Quality réussie s’intéresse au réel avant de s’intéresser aux systèmes.

On ne résout pas ces problèmes de qualité avec un tableau de bord ou avec un automatisme seul, mais avec un accompagnement global, un changement en profondeur de l’organisation . Se libérer de la confortable étude quantitative et se plonger dans la complexe étude qualitative. On se doit de rencontrer les utilisateurs, faire de la saisie avec eux, et former, structurer, attribuer des rôles.

Le plus complet des systèmes est pour le moment encore à genoux devant la créativité des utilisateurs. Derrière le #NoRobots de Pramana, il y a cette envie de vous convaincre que la technique, le système, la machine seront toujours secondaires derrière la formation, l’utilisateur, l’organisation, leurs rôles. Penser aux problèmes de gouvernance, à l’acculturation des utilisateurs avant d’immédiatement initier une solution technique.

Alors, certes, parfois, l’erreur est technique. Saviez-vous par exemple qu’il existe au moins six symboles d’apostrophes différents, tous capables de briser une interface de données ? Sans vouloir se passer de l’aide énorme que nous apportent d’attrayantes solutions technologiques, nous entendons les laisser à leurs positions d’outils et non de fins en soi. Notre conviction est qu’une organisation, dans laquelle la gouvernance des données est humaine, aux rôles et responsabilités clairs et attribués, sera la plus efficace dans la résolution des problèmes de qualité .

Doser l’effort en fonction des gains attendus

Le contrepoint ? Tous les problèmes de qualité ne méritent pas d’être résolus. Notre instinct nous encourage à essayer d’apporter des solutions à tout problème, quel qu’il soit. Et c’est là le piège : doit-on céder au « quoi qu’il-en-coûte » ? La résolution du problème apporte-t-elle vraiment de la valeur au métier concerné ? Etait-ce le sujet prioritaire à résoudre ? Lorsque l’on parle de problèmes organisationnels et humains, il est nécessaire de bien mesurer la réponse à cette question, et de trouver l’équilibre entre nos attentes, et les besoins réels du métier que l’on sert.

Vianney Chevalier
Consultant Data