Avec un comparse, nous avons fait une présentation sur les «mail leaks» pour Dataharvest, conférence sur le journalisme d’investigation européen qui s’est déroulé du 18 au 21 mai à Mâlines en Belgique. L’occasion de se plonger un peu plus dans les fameux #MacronLeaks et notamment d’explorer les méta-données pour voir ce qu’elles apprenaient. Une partie de l’inspiration venait d’un papier du Share Lab autour des mails échangés par l’entreprise Hacking Team.
Il n’y a aucune affaire d’état dans ces mails. Ils permettent cependant de se faire une idée du fonctionnement d’une campagne. Libération et Mediapart en ont tiré des papiers d’enquêtes, recoupées par d’autres sources. Le rôle de ces leaks, on le rappelle, n’est comparable à celui d’un lanceur d’alerte, plutôt l’œuvre de personnes voulant créer du doute.
Le premier travail, une fois récupérée l’archive, fut de traiter les mails. Pour cela, nous avons utilisé Python, qui a permis de générer un fichier csv avec l’expéditeur, le destinataire, la date d’envoi et le sujet. Cela permettra déjà de faire une analyse intéressante. Le script Python est mail-parser et il est plutôt simple d’utilisation, prenant à la volée les fichiers eml.
Grâce au csv, on peut commencer par voir les habitudes des différents comptes. On a fait ça dans Tableau Public, parce que c’est rapide. Le logiciel est un peu obscur au début, mais assez puissant une fois maîtrisé.
Avec Tableau, on regarde par exemple les habitudes des différents expéditeurs, on fait une matrice pour voir ceux qui envoient ou reçoivent le plus de mails. Ces éléments permettent de comprendre quelques relations, de voir où restreindre les données, de s’intéresser à telle personne ou telle autre.
Une autre analyse possible se fait grâce à Gephi. L’idée est de voir les réseaux qui se créent entre les différents expéditeurs et destinataires : plus deux personnes se parlent, plus proches elles seront sur le graphe. Apparition de petits groupes, expéditeurs les plus prolixes, rapprochement dans le temps… Grâce à OpenRefine, on crée une ligne par relation destinataire-expéditeur et on nettoie un peu. Le tout est glissé dans Gephi grâce à l’éditeur et de liens et l’import de feuille de calcul.
Le graphe ainsi réalisé compte 2 000 adresses mails et 12 000 relations. Le dessin du graphe permet de faire apparaître quelques informations : malgré la présence de plusieurs boîtes dans les documents leakés, seules trois boîtes sont fortement connectées. Voire deux lorsqu’on enlève les propriétaires des boîtes (qui biaisent l’analyse puisque connectées à tous les mails).
Ce graphe permet néanmoins de faire apparaître quelques groupes crées pendant la campagne. On voit par exemple des mails échangés fréquemment entre les économistes proches de la campagne, ou alors ceux entre les membres de la commission d’investiture du parti.
Gephi permet également de créer un graphe dynamique grâce à la date, permettant de voir le réseau se créer. Ceci ne sont que quelques exemples, mais ils permettent déjà d’en savoir un peu plus. D’autres outils permettent de générer une liste des termes revenant le plus, d’identifier des entités et de trouver rapidement par exemple des factures…
Et quelques manips plus tard, on peut même l’animer dans le temps (entre fin 2015 et 2017) pour voir les liens se créer… #gephi #EIJC17 pic.twitter.com/CQHycs1bcI
— alphoenix™ (@alphoenix) May 21, 2017