Catégories
Techjournalisme

Mission sur la politique publique de la donnée

Dans le cadre de la mission sur la politique publique de la donnée menée par le député Eric Bothorel en association avec Renaud Védel, coordonnateur national pour l’intelligence artificielle et Stéphanie Combes, directrice générale du Health data hub, j’ai été auditionné, avec Laura Motet, du Monde, Coline Emmel de Gotham City, Pierre Januel, pigiste, notamment pour Dalloz Actualité et Arnaud Dumourier du Monde du droit. Retrouvez ci-dessous le brouillon de mon propos introductif.

Comme je l’ai dit, je suis journaliste à la Gazette des communes, spécialisé dans le data-journalisme. L’idée est d’utiliser les données pour trouver de l’information ou mieux l’expliquer. De croiser les bases de données, de faire émerger des informations, etc. Travaillant à la Gazette des communes, je ne me contente pas des moyennes nationales ou régionales et j’aime bien obtenir un détail, ville par ville. On se contente en effet souvent de moyennes, qui évitent de voir les situations les plus particulières.

Par exemple, les données disponibles actuellement sur le portail open-data du ministère de l’Éducation nationale ne permettent pas de connaître le nombre « réel » d’élèves par classe. La DEPP, service statistique du ministère de l’Education nationale, estime que ça prend trop de temps. Et les autres données sont mises à jour avec un décalage de plus d’un an. Je ne vois pas quel secret on enfreint ici…

Ces données permettraient de suivre pourtant la promesse d’Emmanuel Macron, au niveau local.

Je suis journaliste depuis dix ans environ et j’ai pris pour habitude d’utiliser la CADA pour obtenir des documents et des bases de données. Il est drôle de noter que ce que nous avons dit, a été déjà dit dans les mêmes termes au Sénat, devant une mission commune d’information, en janvier 2014, notamment par Mathilde Mathieu, journaliste à Médiapart…

Ce que je souhaiterai aborder en premier, c’est que la loi en France est moins puissante qu’ailleurs. Le Freedom of information act, comme on dit partout ailleurs, garantit que l’administration, non seulement transmette les documents demandés, mais également qu’elle réponde aux questions des citoyens. En France, on se doit se contenter des documents existants. Je reviendrai là-dessus. 

Il y a eu cependant des évolutions législatives plutôt favorables, la loi CADA de 1978, la création d’Etalab, la loi pour une République numérique, le décret sur les documents administratifs sans anonymisation. Donc, si on considère que la loi est suffisante, je  ne peux que déplorer son manque d’effectivité, au moins du côté de l’État.

Comme le soulignait Pierre Januel, les collectivités locales respectent la plupart du temps la loi et communiquent, parfois de mauvais gré, leurs données. L’État s’en contrefiche la plupart du temps, et il est fréquent de devoir abandonner ou d’aller au tribunal administratif pour lui faire appliquer la loi qu’il édicte. 

Une fois la décision appliquée, on est encore loin du compte, tant les données sont rarement exploitables immédiatement, que ce soit par mauvaise foi, méconnaissance, manque de temps ou de moyens. Encore une fois, c’est pourtant prévu par la loi pour une République numérique, qui parle de mise à disposition « dans un standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé »

Vous nous demandez nos « irritants »… Je vais pas faire une liste exhaustive. Les ministres et services com’ acquièrent en prenant leur poste un pouvoir de communication, qui leur permet de donner tous les chiffres qu’ils souhaitent, dans le format qu’ils souhaitent. Les citoyens eux, n’ont pas le même pouvoir et ne peuvent demander ni détails ni précisions. 

Pendant la période de confinement, par exemple, Christophe Castaner multipliait les annonces chiffrées sur les amendes données, à des fins de communication. Impossible, en retour, d’avoir le moindre chiffre, à un niveau local, notamment. Une demande CADA est en cours à ce sujet.

Il faudrait que l’administration bascule d’un culte du secret – où ils se voient comme Gollum avec leur précieuse base de données – à une discussion avec les citoyens, où ils deviendraient médiateurs de la donnée. La non-communication semble être l’état de base, qu’on doit bousculer en passant par les PRADA ou la CADA. Il suffit de regarder les portails anglo-saxons d’open-data, qui contiennent tant de données et de bases de données pour s’en faire une idée.

On doit donc se contenter de documents existants et les administrations sont réticentes. Alors que ça crée des risques de désinformation. J’ai un exemple, encore une fois avec le ministère de l’intérieur. L’usage des armes par la police était communiqué aux journalistes invité à un point presse, chaque année. Les chiffres étaient énoncés mais pas écrits. Ce qui fait que différents chiffres, par erreur de retranscription, existaient dans la presse. Ce qui ne risquerait pas d’arriver si cette base était publique, une fois anonymisée. Ou si les chiffres, à tout le moins, étaient publiés.

Le ministère de l’intérieur, toujours lui, avait également diffusé une carte montrant pour chaque département le nombre de nouveaux équipements prévus pour les policiers.  Pour éviter les erreurs dans la recopie, j’avais demandé un tableur, un Excel, listant chaque département. Cela m’a été refusé pour une question de « sécurité publique », et ce fut confirmé par la CADA (avis 20171571), qui n’est guère aventureuse quand elle reçoit une réponse d’un ministère. Pierre Januel est revenu là-dessus.

Pour revenir au ministère de l’Education nationale. J’ai demandé en début d’année le détail des IPS (indice de position social) par collège, qui sont utiles, puisqu’ils permettent notamment de classer les collèges en zones REP ou non, ou encore de distribuer des moyens financiers. Ces indicateurs sont gardés précieusement par la DEPP, sans que je ne comprenne trop pourquoi. Il devraient être publiés et accessibles à tous. J’attends l’avis de la CADA à ce sujet. 

La loi existe, les lois existent même, mais les administrations traînent. J’en avais demandé un extrait fin novembre 2018 de la base de l’Agence nationale de traitement automatisé des infractions pour les forfaits de post-stationnement ; la demande pourrait être la même pour toutes les autres amendes passant par l’ANTAI, radars et tablettes des policiers. La loi pour une République numérique prévoit que les bases de données de l’administration soient publiées en ligne.

Il y a un an, le 5 septembre, la CADA (avis 20185910) a émis un avis positif à ma demande. Elle déclarait même que le directeur de l’ANTAI promettait que l’anonymisation, nécessaire, de la base de données, était en cours. J’attends toujours. Et pourtant, ça faciliterait notamment la communication de Gérald Darmanin sur la distribution d’amendes forfaitaires chaque jour. Ou, accessoirement, mon travail.

Enfin, je voudrais revenir sur les délais. Pour obtenir de la Fédération française de football une base de données considérée par le tribunal administratif et par la CADA (avis 20171988) comme communicable, ça m’a pris plus de deux ans. Et, n’étant pas satisfait de la réponse, vu que la Fédération française de football a envoyé une base sans aucune description des colonnes, et pour une année seulement, la seule action possible était de saisir à nouveau le tribunal administratif et de repartir dans de longs délais, comme le soulignait Coline Emmel.

Pour conclure, je voudrais parler des codes sources, puisque ça concerne également votre mission d’information. L’intelligence artificielle a déjà pris de l’importance dans notre vie et dans les décisions qu’on prend ou qu’on subit. L’État n’est pas le dernier en la matière. 

Un des rôles du journaliste au 21ème siècle sera, j’en suis convaincu, de s’assurer que ces outils font bien ce qu’il est prévu qu’ils fassent et de s’assurer qu’ils ne sont pas injustes. Il est donc primordial de libérer tous ces algorithmes, quels qu’ils soient, que ce soit l’Excel utilisé par une mairie ou une université pour attribuer des places ou les grands programmes informatiques de l’État. 

2 réponses sur « Mission sur la politique publique de la donnée »

J’avais fait un petit site qui tente de calculer le délai de réponse de la CADA : https://dav.li/wtfcada/ mais cela ne prend pas en compte le délai effectif de réponse (par exemple, j’ai récemment reçu un avis de la CADA donné il y a 6 mois) et le temps pour obtenir les données. Mais on parle bien souvent en années, ce qui est aberrant.

[…] Vous connaissez le refrain : j’ai attendu une réponse qui n’est pas venue, j’ai saisi la Commission d’accès aux documents administratifs (CADA), j’ai attendu une réponse de la CADA, qui est arrivée en septembre 2020 – près d’un an après ma demande initiale. Relancé, fort d’un avis favorable de la CADA, le ministère de l’éducation nationale m’oppose une fin de non-recevoir assez claire : […]

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *