La visibilité n’est pas un paiement

Lettre ouverte aux organisateurs de conférences

Chèr-e organisateur-trice ,

Félicitations pour avoir mis en place ton événement, d’avoir trouvé le lieu, les sponsors, les budgets. C’est un fameux travail, j’en suis conscient.

Le point d’orgue de ton événement est une conférence ou une table ronde à laquelle tu me proposes de participer. Je suis flatté de ton intérêt.

Cependant, tu espères qu’on n’abordera pas la question de la rétribution, tu laisses cette question en suspens comme s’il tombait sous le sens que ma participation devrait être bénévole.

Lorsque je pose la question et que tu n’as pas de budget pour me payer ou même me défrayer, tu argueras que cela me fait « une belle visibilité ».

Mais tu dois être conscient que la visibilité ne se mange pas, que la visibilité ne sert à rien si ce n’est à obtenir des propositions pour d’autres conférences gratuites.

Pire : lors de ton événement, je toucherai peut-être une centaine de personnes. Bref, l’équivalent d’un tweet. Non seulement la visibilité n’est pas rentable, mais celle que tu me proposes est ridicule.

Tu sous-entends également que j’ai besoin de visibilité. Or, si tu m’as trouvé, c’est que j’ai déjà la visibilité dont j’ai besoin. Et peut-être que certains d’entre nous ne cherchent pas de la visibilité à tout prix.

Bref, lorsque tu y réfléchis, ton argument est à la limite de l’injure. Sans compter que tout le reste de ton événement est largement payant : présence de sponsors, location de la salle, impression des affiches et, le plus souvent, prestataires techniques. Au final, seul le “clou du spectacle” est gratuit. Et peut-être toi-même si tu as le plus souvent un salaire. N’est-ce pas un peu paradoxal ? N’est-ce pas un peu injuste que je doive, en plus de mon travail, payer mon moyen de transport pour venir parler entre deux panneaux faisant la promotion d’une grande banque ?

Et si la préparation occupe ton esprit en permanence depuis des semaines voire des mois, n’oublie pas que ce n’est pas mon cas. Si j’accepte de participer bénévolement, je n’ai pas pour autant accepté des réunions de préparation, des dizaines d’échange par email, plusieurs coups de téléphone et une inscription sur ta newsletter ou ta plateforme de communication interne. Ce n’est pas non plus à moi de devoir quémander toutes les informations sur le lieu, la date, le format, ce qui est attendu de moi tout en devant m’adapter aux changements de dernière minute.

Je ne souhaite pas te décourager. Je trouve très bien qu’il y’ait des événements gratuits et, personnellement, j’accepte très régulièrement d’intervenir gratuitement avec plaisir. Les motivations me sont propres et varient d’une proposition à l’autre : le projet me plait, j’avais envie de visiter l’endroit, je souhaite rencontrer l’un des autres conférenciers ou, tout simplement, j’ai l’impression que cela correspond à ma mission de vie. La gratuité n’est donc pas synonyme d’exclusion et le fait de me payer n’est pas une garantie d’acceptation (sauf à partir d’une certaine somme, je suppose). L’argent n’est qu’un élément de la balance, mais il est non négligeable.

Je souhaiterais juste que tu sois un peu plus honnête et explicite dès la prise de contact. Que tu poses directement les conditions et les modalités pratiques. M’offrir de la “visibilité”, je le prends comme une insulte, cela me donne envie de refuser directement. Prétendre ne pas avoir de budget lorsqu’on affiche partout le sponsor d’une grande banque ou qu’on est une énorme organisation publique qui consomme des milliards d’argent public chaque année, je trouve ça à la limite de la malhonnêteté intellectuelle.

Merci pour ton attention et bonne chance pour ton événement.

Photo by ål nik on Unsplash

Je suis @ploum, conférencier et écrivain électronique déconnecté rémunérés en prix libre sur Tipeee, Patreon, Paypal, Liberapay ou en millibitcoins 34pp7LupBF7rkz797ovgBTbqcLevuze7LF. Vos soutiens, même symboliques, font une réelle différence pour moi. Merci !

Ce texte est publié sous la licence CC-By BE.

L'écho des gnous 17 février 2019

émission consacrée au logiciel Libre et à la culture libriste

Synchronisation Thunderbird – Android

La synchronisation entre Thunderbird et Android peut être un frein au passage à une distribution GNU/Linux. Il l’a été pour moi, il l’est pour des personnes que l’on peut rencontrer sur les salons.

Sous Windows, il existe deux applications qui peuvent faire le travail très simplement. Je me souviens d’avoir, sur une RMLL, posé la question « comment synchroniser agenda et téléphone en passant à GNU/Linux ». J’ai eu deux types de réponses, l’une, que je qualifierais d’obscène « suffit d’avoir un compte Gmail », l’autre inacceptable « il te faut un serveur », sous-entendu « tu te montes un serveur dans ta cuisine ». Je n’ai pas eu, par contre, le troisième type, la réponse facile « Framasoft ».

Comme j’ai eu des soucis de synchronisation il y a peu, j’ai trouvé que c’était une bonne idée (relative au temps que ça m’a pris) de rédiger un tutoriel complet sur la question.

La bonne nouvelle c'est que cela fonctionne même avec un vieux téléphone pourri (le mien et probablement son OS, datent de 2013).

Pourquoi les trois réponses sont inadaptées

Personnellement, j’ai commencé ma dégooglisation en 2013, avant que Framasoft ne commence à mettre en ligne ses services. C’était dans la lancée des diverses questions qui émergeaient sur l’hégémonisme et les mauvaises manières de Google, donc rien d’innovant en ce qui me concerne, cela devait d’ailleurs coïncider avec la phase préparatoire de lancement de la dégooglisation par Framasoft.

L’idée c’est de rester maître de ses données. En choisissant un compte Gmail, on ne l’est pas et on reste dépendant d’une solution unique. Pour tout dire, en ce qui me concerne « logiciel libre » et Google sont des mots qui ne vont vraiment pas ensemble du tout.

Concernant la réponse « il te faut un serveur », elle me semble inacceptable, car elle est trop lapidaire et, de fait, n’aide pas, voire fait fuir. La dernière fois que j’ai eu cette question sur une manifestation en faveur du logiciel libre, j’ai répondu « le plus simple, c’est de prendre un abonnement auprès d’un serveur qui va héberger vos données » en parlant de « cloud », en indiquant les excellents tutoriels de Zaclys et en évoquant les CHATONS.

S’agissant de la réponse facile, elle est à éviter parce qu’il ne s’agit pas de remplacer et d’être dépendant d’une solution unique par une autre, fût elle aussi sympathique que Framasoft, mais bien de pouvoir rester autonome et de changer de crèmerie si et quand on veut. C’est d’ailleurs, toute l’idée des CHATONS.

Ce qu’on trouvera dans le tutoriel

Les pré-requis

Côté ordinateur, Thunderbird plus Lightning et Cardbook ou Thunderbird plus TbSync et Provider for CalDAV & CardDAV, le tutoriel explique la démarche pour les deux types de synchronisation.
À savoir : Lightning est intégré à Thunderbird depuis les dernières versions.

Côté téléphone, le magasin d’applications F-Droid pour récupérer Davx5 qui est le nouveau nom de DAVdroid.

Pour faire le lien entre tout ça, un accès à un serveur Nextcloud, qu’on choisira par exemple dans la liste de ceux offerts par les CHATONS.

Les précautions d’usage

Sauvegarder, c’est-à-dire exporter agenda et carnet d’adresses de Thunderbird, de cette façon on peut y aller sans risque de tout perdre.

Les paramètres de Thunderbird et de Nextcloud et l’ordre des opérations

  • Création de l’agenda et du carnet d’adresses d’abord sur le serveur pour pouvoir copier son URL dans Thunderbird.
  • Création ensuite de l’agenda et du carnet d’adresses Cardbook ou configuration de TbSync.
  • Dans Thunderbird configuration des paramètres, soit de Lightning et de Cardbook, soit de TbSync pour pouvoir faire la synchronisation.
  • La manipulation à faire dans Thunderbird depuis les dernières mises à jour pour que la synchronisation fonctionne, à savoir : dans l’Éditeur de configuration, passer de true à false le paramètre network.cookie.same-site.enabled

Sur le téléphone

Lancer DAVdroid (ou Davx5), appuyez sur le signe + et Ajouter un compte. L’adresse de connexion à une URL étant l’adresse WebDAV fournie par le serveur auquel on est abonné. Il faut, évidemment, aussi les identifiants de connexion au dit serveur.

En complément

Le tutoriel indique, assez rapidement, les éléments susceptibles de varier si on vient d’un autre logiciel de courrier électronique : les formats d’export ainsi que la structure des carnets d’adresses.

Sinon, il y a aussi la solution Memotoo que je n’ai pas testée, mais qu’on m’a signalée pour sa capacité à synchroniser n’importe quoi avec presque tout. Et il y a, évidemment, les tutoriels de Zaclys dont j’ai déjà parlé.

Pour terminer

Cet article a été mis en ligne le 14 février 2018 et signalé sur mes comptes Diaspora et Mastodon où il a fait l’objet de diverses remarques qui ont été ajoutées dans le tutoriel : TbSync dont j’ignorais l’existence et Memotoo ou encore le nouveau nom de DavDROID. Je remercie encore une fois ceux et celles qui m’ont lu pour leurs remarques.

Accessoirement, le tutoriel sera bientôt ajouté au wiki de Mageia ou de MLO (je ne sais pas trop lequel encore).

Télécharger ce contenu au format Epub

Commentaires : voir le flux atom ouvrir dans le navigateur

Libre à vous ! Radio Cause Commune - Transcription de l'émission du 12 février 2019


Frédéric Couchet

Titre : Émission Libre à vous ! diffusée mardi 12 février 2019 sur radio Cause Commune
Intervenants : Roberto Di Cosmo, Software Heritage - Jean-François Clair, SNES - Jean-Christophe Becquet, April - Frédéric Couchet, April
Lieu : Radio Cause Commune
Date : 12 février 2019
Durée : 1 h 30 min
Écouter ou télécharger le podcast
Page des références utiles concernant cette émission
Licence de la transcription : Verbatim
Illustration : Bannière radio Libre à vous - Antoine Bardelli ; licence CC BY-SA 2.0 FR ou supérieure ; licence Art Libre 1.3 ou supérieure et General Free Documentation License V1.3 ou supérieure. Logo radio Cause Commune, avec l'accord de Olivier Grieco
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

logo cause commune

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Couchet : Bonjour à toutes. Bonjour à tous. Vous êtes sur la radio Cause Commune 93.1 en Île-de-France et partout ailleurs sur le site causecommune.fm. La radio dispose d’un webchat, donc utilisez votre navigateur web, connectez-vous sur le site de la radio, cliquez sur « chat » et rejoignez-nous sur le salon web.
Nous sommes mardi 12 février 2019, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre. Je m’appelle Frédéric Couchet, je suis le délégué général de l’April.
Le site web de l’April est april.org, a, p, r, i, l point org et vous y trouvez déjà une page consacrée à cette émission avec tous les liens et références utiles, les détails sur les pauses musicales et toute autre information utile en complément de l’émission. Vous pouvez également nous faire des retours pour nous indiquer ce qui vous a plu mais aussi des points d’amélioration. Je vous souhaite une excellente écoute.

Nous allons passer maintenant au programme de cette émission.
Nous allons commencer dans quelques secondes par une chronique de Jean-Christophe Becquet, président de l’April, intitulée « Pépites libres ». Normalement Jean-Christophe est avec nous au téléphone, bonjour Jean-Christophe.

Jean-Christophe Becquet : Bonjour Fred. Bonjour à tous.

Frédéric Couchet : On se retrouve d’ici quelques secondes.
D’ici une quinzaine de minutes notre sujet principal portera sur le projet Software Heritage avec Roberto Di Cosmo qui est avec nous en studio. Bonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Et en fin d’émission, nous parlerons du projet de loi pour une école de la confiance et des amendements proposant d’inscrire dans la loi la priorité au logiciel libre dans l’Éducation.

Je salue à la réalisation de l’émission, pour sa première, notre camarade Patrick Creusot sous la surveillance et l’aide d’Étienne Gonnu, de Charlotte Boulanger et d’une autre personne dont je ne connais pas le prénom, j’en suis désolé.

Tout de suite nous allons passer au premier sujet avec la seconde édition de la chronique de Jean-Christophe Becquet, président de l’April, chronique qui s’appelle « Pépites Libres ». Dans cette chronique, Jean-Christophe nous présente une ressource sous une licence libre – texte, image, vidéo ou base de données – sélectionnée pour son intérêt artistique, pédagogique, insolite, utile et les auteurs de ces pépites ont choisi de mettre l’accent sur les libertés accordées à leur public.
La chronique du jour, Jean-Christophe, porte sur le dessin animé de Nina Paley, Copier n’est pas voler.

Jean-Christophe Becquet : Oui. Dans ma chronique du mois de janvier je vous invitais à découvrir la conférence Un Faible Degré d’Originalité d’Antoine Defoort dont la vidéo est disponible sous licence libre. Parmi ses sources d’inspiration j’évoquais Nina Paley et c’est sur elle que j’aimerais revenir aujourd’hui.
Nina Paley est une artiste américaine auteur de bandes dessinées et de dessins animés.
J’ai donc choisi de vous parler d’un dessin animé de Nina Paley Copier n’est pas voler ou Copying Is Not Theft en anglais. Il s’agit d’une vidéo très courte, elle dure à peine une minute. De manière ludique et en chansons, Nina Paley dénonce l’amalgame entre le vol et la copie.
En effet, le vol concerne des objets matériels alors que la copie s’applique aux idées et aux œuvres de l’esprit qui, elles, sont intangibles et immatérielles. Et c’est cette escroquerie intellectuelle que dénoncent les petits personnages de Nina Paley.
Dans le code pénal français, le vol est défini comme la soustraction frauduleuse de la chose d’autrui ; c’est l’article 321.1. Donc le vol est une soustraction, c’est-à-dire qu’il prive sa victime de l’objet dérobé, alors que pour la copie c’est complètement différent : copier c’est multiplier. Je sais que le logiciel libre préserve vos libertés et je vous le dis. Alors nous sommes plusieurs à le savoir sans que je sois privé de ma connaissance initiale. On voit bien qu’il n’y a pas soustraction ! Les idées que je partage à travers cette chronique sont multipliées par le nombre d’auditeurs. En faisant le choix d’une licence libre pour ses émissions, Cause Commune encourage cette multiplication.

Les héros du dessin animé de Nina Paley s’amusent à comparer le vol et la copie d’un vélo. En effet, dans leur monde immatériel, il est possible très facilement de faire des copies : un simple coup de crayon, deux clics de souris, et chacun peut enfourcher une copie du vélo. Ils échappent à ce qu’on appelle la rivalité des biens matériels, c’est-à-dire le fait que chacun prenne une copie d’un objet nécessite une quantité importante de ressources et d’énergie.
À l’inverse, depuis l’avènement d’Internet, la copie est grandement facilitée et son coût est devenu marginal. C’est un problème pour les défenseurs de l’ancien système basé sur des rentes indexées sur le nombre de copies. C’est une formidable opportunité pour l’humanité. De plus en plus d’auteurs choisissent de partager leur travail sous licence libre.
Aujourd’hui j’ai envie de dire : copions et multiplions toutes ces pépites libres !

Frédéric Couchet : Merci Jean-Christophe. Donc ce dessin animé de Nina Paley dure à peu près une minute. Les références sont sur le site de l’April avec la version originale qui est en anglais, une version française ; il y aussi un lien vers des versions modifiées parce que dès le départ, Nina Paley qui a diffusé ce dessin animé sous licence, de mémoire, CC BY SA, Creative Commons Partage à l’identique, a encouragé les personnes à faire des modifications, à mettre leurs propres musiques. Donc il y a un certain nombre de versions modifiées avec des musiques assez sympas.
Ces petits personnages rappelleront les cartoons qu’on connaît avec notamment les petits personnages qui ont quatre doigts au lieu de cinq doigts. Ce dessin animé date de quelle époque ? Est-ce que tu te souviens ?

Jean-Christophe Becquet : C’est relativement ancien, en fait, ça date de 2010.Ça a dix ans et effectivement, comme tu l’as dit, parce que Nina Paley a choisi une licence libre, ce dessin animé a fait l’objet d’un grand nombre de reprises, d’adaptations, de traductions d’abord. On le trouve dans un grand nombre de langues. On a mis le lien vers la version française, mais il y aussi des versions en espagnol, en allemand. Il y a des adaptations avec d’autres styles de musique et on peut aussi télécharger les paroles, la partition. L’intérêt de la démarche de Nina Paley c’est que toutes les briques de sa création sont libres et qu’elle encourage effectivement la création et la réutilisation. Du coup, en dix ans d’ancienneté de cette vidéo, il y en a eu un grand nombre.

Frédéric Couchet : Et ce n’est pas la première animation que Nina Paley a libérée parce qu’en 2006 ou 2008, peut-être, elle avait distribué un dessin animé beaucoup plus long, son animation Sita Sings the Blues sous licence Creative Commons Partage à l’identique et, en plus, elle avait explicitement interdit la pause de verrous numériques, les DRM qu’on a déjà évoqués dans une précédente émission. Donc Nina Paley est une personne qui milite vraiment, on va dire depuis 2008-2010 au moins, pour un mouvement de ce qu’on peut appeler la culture libre. Sur son site ninapaley.com on peut retrouver ses différentes productions en plus, effectivement, de ce dessin animé Copier n’est pas voler dont tu nous as parlé. Quel est le lien avec le logiciel libre ?

Jean-Christophe Becquet : En fait c’est que ces licences libres qui sont aujourd’hui utilisées pour les œuvres de Nina Paley, donc les licences Creative Commons, sont les héritières des licences du logiciel libre. C’est-à-dire que le Libre est né avec le logiciel libre, Richard Stallman en 1984 et, en fait, avec le temps, d’autres personnes ont eu envie de libérer d’autres ressources que des logiciels et se sont mises à réfléchir à des licences adaptées à des ressources non-logicielles. Donc ça a donné la licence Art libre, par exemple, qu’on utilise à l’April, les licences Creative Commons dont certaines sont considérées comme libres et d’autres licences qui s’inspirent des libertés du logiciel libre, mais pour les transposer à d’autres œuvres comme des textes, des images, des livres ou des films et dessins animés dans le cas de Nina Paley.

Frédéric Couchet : Et le principe de non-rivalité que tu as expliqué et qui est explicité dans cette vidéo est évidemment valable pour toute œuvre de l’esprit qui est une ressource non exclusive et non rivale, c’est-à-dire que tout le monde a un libre accès à cette ressource, non exclusif, et il n’est pas possible d’exclure quelqu’un de l’usage d’une telle ressource sauf, évidemment, à recourir soit à des principes juridiques, soit à des principes techniques comme les mesures techniques qui, des fois, enfin souvent, sont également protégées par des principes juridiques.

Jean-Christophe Becquet : Oui. Tout à fait. C’est ce que j’ai appelé les tenants de l’ancien système qui, eux, utilisent des verrous juridiques et techniques pour lutter contre cette facilité de copie des ressources qui pose bien des problèmes à leur modèle économique archaïque.

Frédéric Couchet : Exactement. Et pour finir, je te laisserai le mot de conclusion, ça explique aussi pourquoi nous refusons le terme de « propriété intellectuelle », pour deux raisons principales. Déjà le terme « propriété intellectuelle » laisserait supposer qu’on peut, en fait, réfléchir aux œuvres de l’esprit comme on peut réfléchir à des objets matériels alors que ce n’est pas le cas, ce n’est pas la même propriété notamment ce que tu as expliqué, la non-rivalité. Et deuxième chose, c’est que le terme de « propriété intellectuelle » dans le droit englobe des domaines très différents qui vont du droit d’auteur aux brevets et à plein d’autres choses qui sont très différentes dans leurs principes. C’est pour ça que nous on préfère parler spécifiquement d’un droit particulier, par exemple le droit d’auteur et que, dans son ensemble, le terme « propriété intellectuelle » ne doit pas être utilisé parce qu’il pousse à réfléchir sur les œuvres de l’esprit comme on réfléchirait sur des œuvres matérielles.
Est-ce que tu as une phrase de conclusion ? Est-ce que tu veux rajouter quelque chose cher Jean-Christophe ?

Jean-Christophe Becquet : Oui. Juste dire que Nina Paley a fait, comme tu l’as dit, d’autres dessins animés, notamment un autre dessin animé de sensibilisation au Libre qui montre à quel point toute œuvre créée s’inspire des œuvres existantes. Je vous invite à découvrir ça et puis, dans l’attente, eh bien je me mets en recherche d’une nouvelle ressource libre pour la chronique « Pépites libres » du mois prochain. Un grand merci et bonne écoute pour la suite de l’émission.

Frédéric Couchet : Merci Jean-Christophe et on se retrouve le mois prochain.

Nous allons passer par une petite pause musicale qui va être relativement courte vu qu’elle dure 59 secondes. Évidemment, c’est la bande son du dessin animé de Nina Paley Copier n’est pas voler.

Pause musicale : Copier n’est pas voler, bande son du dessin animé de Nina Paley.

Frédéric Couchet : Vous êtes de retour sur Cause commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Nous venons d’écouter la bande son du dessin animé de Nina Paley Copier n’est pas voler dont les références sont sur le site de l’April, april.org, vous avez une page qui est consacrée à l’émission.

Nous allons passer à notre sujet principal avec notre invité du jour et c’est un grand plaisir de recevoir Roberto Di Cosmo pour parler de l’initiative Software Heritage, archive mondiale du logiciel. Donc rebonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Roberto tu es italien, installé en France, professeur d'informatique ; tu es un libriste depuis très longtemps.

Roberto Di Cosmo : Depuis plus de 20 ans.

Frédéric Couchet : Je pense qu’on se connaît depuis une petite vingtaine d’années. Tu as été rendu célèbre notamment par un pamphlet en 1998 qui s’appelle Piège dans le cyberespace et ensuite par un livre coécrit avec Dominique Nora la même année, donc 1998, qui s’appelait Le hold-up planétaire : la face cachée de Microsoft, sur les problèmes posés par le monopole de Microsoft et aussi ses méthodes pour contrer toute concurrence et, en premier, le logiciel libre.
Depuis septembre 2010 tu es directeur du laboratoire IRILL, Initiative pour la Recherche et l’Innovation sur le Logiciel Libre et, depuis septembre 2016, tu es détaché auprès de l’Inria, l’Institut national de recherche en informatique et en automatique, et tu es directeur de l’initiative Software Heritage depuis 2016.

Roberto Di Cosmo : Oui. Tout à fait.

Frédéric Couchet : Est-ce que cette présentation te paraît correcte ou est-ce que tu veux ajouter quelque chose ?

Roberto Di Cosmo : On pourrait ajuster quelque petite chose par ci ou par là…

Frédéric Couchet : Ajuste !

Roberto Di Cosmo : Mais globalement on y est.

Frédéric Couchet : D’accord. Avant de te laisser la parole et avant d’échanger sur le projet Software Heritage, en préparant l’émission évidemment je me suis renseigné et j’ai trouvé qu’en fait, le plus simple, c’était de prendre des extraits de l’annonce officielle de l’Inria en 2016 qui annonce « Software Heritage, archive mondiale du logiciel ». Annoncée le jeudi 30 juin 2016 l’ouverture au public du projet Software Heritage : « Ce projet a pour objectif de collecter, organiser, préserver et rendre accessible à tous et à toutes le code source de tous les logiciels disponibles. Un enjeu de portée mondiale. » Antoine Petit, PDG de l’Inria, précise : « Les logiciels sont aujourd’hui au cœur de toutes les activités humaines, de la médecine aux loisirs, des communications à l’agriculture. » Je poursuis la présentation du communiqué de l’Inria : « En construisant une archive universelle et pérenne du logiciel, Software Heritage vise à mettre en place une infrastructure essentielle au service de la société, de la science et de l’industrie. Software Heritage vise à construire à la fois une moderne bibliothèque d’Alexandrie du logiciel, le référentiel unique du code source et un grand instrument de recherche pour l’informatique. Le projet va permettre de préserver et diffuser la connaissance aujourd’hui encodée dans le logiciel et augmentera notre capacité d’accéder à l’ensemble de l’information numérique. La base s’appuiera notamment sur une infrastructure distribuée — on y reviendra — de manière à garantir la robustesse et la disponibilité des données. » Lors de l’annonce, deux premiers partenaires internationaux s’étaient déjà engagés à soutenir le projet et l’aider à grandir, Microsoft, dont on vient de parler, ainsi qu’une institution publique au service de la recherche scientifique, le DANS de la Royale Académie des Pays-Bas.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Une fois cette introduction faite, j’ai envie de te poser la première question pour entrer un peu dans les détails, quels problèmes cherche à résoudre l’initiative Software Heritage lancée en 2016 par l’Inria ?

Roberto Di Cosmo : Tout d’abord merci de m’avoir invité, c’est vraiment un plaisir de passer échanger un peu sur ce sujet, de prendre un peu de temps, un peu de calme. Comme tu sais, Fred, ça fait longtemps qu’on s’occupe de logiciels, de logiciels libres, de codes, d’informatique en général donc on a vu pas mal d’évolutions de notre société. Aujourd’hui on est tous d’accord que le logiciel est quelque chose d’essentiel. Par contre, il faut dire que les personnes qui ne sont pas très techniques donc qui ont plutôt l’habitude de voir les logiciels juste comme des outils : tu prends ton téléphone, tu appuies sur une icône, ça lance une petite application, ça fait quelque chose ; on peut envoyer des bisous à quelqu’un qu’on aime, on peut acheter quelque chose, on peut regarder une vidéo, c’est très bien. Par contre, on a tendance à ne pas savoir, à oublier que derrière ces logiciels qui sont exécutables, qu’on utilise comme des outils, en vérité il y a tout un travail humain de conception super important. Ces logiciels ne tombent pas du ciel, ils sont écrits, c’est vraiment le terme qu’on utilise quand on développe – les développeurs écrivent du logiciel –, on les écrit dans des langages de programmation en produisant ce qu’on appelle le code source. C’est le code source du logiciel qui contient vraiment la connaissance qui est nécessaire pour faire fonctionner ce logiciel-là.

Frédéric Couchet : Tu peux expliquer peut-être juste ce qu’est le code source aux personnes qui nous écoutent.

Roberto Di Cosmo : On peut prendre l’analogie habituelle qu’utilise aussi Richard [Stallman] à un moment donné, l’histoire de la recette de cuisine. Par exemple vous avez un gâteau que vous aimez beaucoup, ça c’est un peu l’exécutable, vous coupez des tranches et vous mangez, c’est super. Par contre, s’il faut le refaire, c’est un peu compliqué si on ne vous a pas expliqué comment on l’a fait. En général on s’échange des recettes de cuisine dans lesquelles on dit dans quel ordre on a mis quel ingrédient, pendant combien de temps, etc. C’est un peu la même idée. Dans la musique aussi : vous pouvez écouter de la musique qui est fantastique mais pour refaire cette musique-là normalement on a besoin d’une partition et ce n’est pas facile de reconstruire la partition juste en écoutant la musique telle qu’elle est.
Il faut savoir que dans le cas des logiciels c’est un peu la même histoire, sauf que c’est énormément plus compliqué. À partir d’un binaire – un binaire c’est ce qu’on utilise pour les exécutables, les applications qu’on voit – reconstruire ce qu’on appelle le code source qui est la représentation du logiciel, qui est préféré pour un développeur pour le modifier, c’est vraiment la définition formelle, c’est énormément difficile en partie aussi parce que, très souvent, dans ce logiciel on a plein de commentaires ou d’annotations qui sont faites pour les êtres humains, pour les relire, et qui disparaissent.

Frédéric Couchet : Qui sont supprimés dans la phase de cuisson, quelque part.

Roberto Di Cosmo : Voilà ! Dans la phase de cuisson ça disparaît, on ne les retrouve pas dans l’exécutable qui tourne sur la machine donc on a complètement perdu de l’information.
C’était un peu le préalable. Effectivement on parle souvent de logiciels, mais on oublie que ces logiciels sont fabriqués à travers une forme qui est ce code source, qui est vraiment précieuse, qui est une forme d’écriture nouvelle, technique, une sorte de littérature technique du 21e siècle qu’on est en train de mettre en place.

Frédéric Couchet : Ça ressemble quand même à un langage quelque part naturel parce qu’il y a une grammaire, il y a un vocabulaire et en fait, n’importe quelle personne, y passant du temps, peut apprendre à écrire du code ou à le comprendre.

Roberto Di Cosmo : Absolument. Tu fais très bien de le dire. Il ne faut pas non plus se sentir rebuté par le code source. C’est la même chose que dans la littérature. On utilise tous le français, moi avec un peu d’accent, mais normalement on utilise tous la langue française. Pourtant il y a des textes qui sont très faciles à lire, il y a des textes qui sont beaucoup plus compliqués donc il faut passer du temps pour comprendre ce que ça veut dire.
Dans le cas des programmes c’est un peu similaire : il y a des programmes qui sont très simples à aborder et des programmes qui sont plus complexes, qui nécessitent plus de temps pour comprendre des notions plus avancées. C’est quand même à la portée, pas de tout le monde, mais en y mettant un peu d’énergie on arrive à comprendre ce qui se passe derrière. Et c’est vraiment une production humaine.

Frédéric Couchet : Donc ce premier point et je te laisse continuer, c’est l’importance du code source quand on parle de logiciels et donc ça sera l’un des points central de Software Heritage. Je te laisse poursuivre.

Roberto Di Cosmo : Absolument. Les auditeurs ne peuvent pas le voir, mais moi j’ai un peu la barbe blanche, je commence à avoir un certain âge, n’empêche que comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger ; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles. Il y a énormément d’initiatives pour archiver des informations numériques, par exemple l’Internet Archive qui est une initiative magnifique.

Frédéric Couchet : C’est archive.org ou archive.org.

Roberto Di Cosmo : C’est parti il y a plus de 20 ans cette archive. Elle archive le Web, les pages web qu’on connaît. Il y a d’autres initiatives qui essaient d’archiver des vidéos, qui essaient même d’archiver des exécutables de logiciels, Internet Archive fait ça aussi, un peu. Donc on archive tout ce que vous voulez dans le monde numérique sauf, et c’était ça qui était surprenant, le point de départ du projet, sauf le code source qui est quand même la brique fondamentale de la révolution numérique dans laquelle on vit aujourd’hui. C’était étonnant ! Quand on s’est aperçu de ça et d’ailleurs on s’en est aperçu de façon un peu…

Frédéric Couchet : En fait, peut-être que les gens pensaient que comme le code source était dupliqué sur plein de machines qu’il ne pourrait jamais disparaître. Peut-être que les gens pensaient ça !

Roberto Di Cosmo : Tu sais, le même argument on peut le faire pour la vidéo, pour les images, etc. Pourquoi les archiver si elles sont bien dupliquées sur l’ordinateur de quelqu’un ?

Frédéric Couchet : Oui, tout à fait.

Roberto Di Cosmo : On a tendance à confondre plusieurs activités qui sont très importantes. D’ailleurs j’ouvre une petite parenthèse mais qui est importante en termes de terminologique : quand on développe du logiciel, souvent aujourd’hui quand on fait du logiciel libre on travaille de façon collaborative, en réalité on a besoin d’infrastructures qui font trois choses différentes.
Il y a un premier type d’infrastructures qui sont ce qu’on appelle souvent les forges logicielles. Ce sont des endroits dans lesquels une communauté de développeurs travaille de façon collaborative pour mettre au point un logiciel ou le faire évoluer. On travaille ensemble, on commente, on décide, on trouve les erreurs, on les corrige, etc. C’est très dynamique. Ça ce sont les plateformes de développement.
À un certain moment on peut dire : tiens, cette version-là du logiciel est quand même la version stable, celle qu’on veut vraiment distribuer, que tout le monde puisse la réutiliser facilement, etc. À ce moment-là on a envie de le diffuser, de le partager, de le rendre plus facilement accessible à tout le monde et là on passe dans une deuxième catégorie de plateformes qui sont normalement des plateformes de distribution.
Et après il y a un troisième type de plateformes qui n’existent pas, qui sont des plateformes d’archivage. C’est quoi une archive ? C’est un endroit dans lequel quand on a versé un objet dedans, on a déposé un objet dedans, on repasse six mois, deux ans, trois ans, dix ans, cent ans après, si on est tous vivants, et on retrouve le même objet.
Ce sont trois missions très différentes.

Frédéric Couchet : Je vais juste préciser par rapport aux personnes qui écoutent régulièrement l’émission qu’on a parlé des distributions GNU/Linux il y a une semaine ou quinze jours, je ne sais plus, notamment avec Nicolas Dandrimont qui travaille avec toi sur Software Heritage et qu’on a parlé plusieurs fois des forges logicielles, alors pas d’un point de vue technique, mais on en a parlé dans le cadre du projet de directive européenne sur le droit d’auteur qui peut mettre justement en danger ces forges logicielles. Vous retrouvez ces références sur le site de l’April, podcast et transcriptions. Je te laisse poursuivre Roberto.

Roberto Di Cosmo : Parfait, merci.
Donc là, finalement ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles ; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café : où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.
Fred, par exemple quand on a commencé ça, parce que tu as bien fait de mentionner le 30 juin 2016, c’est le moment où on a annoncé le projet de façon publique…

Frédéric Couchet : Mais le projet avait commencé avant.

Roberto Di Cosmo : Le projet avait commencé bien avant !

Frédéric Couchet : Quand ça ?

Roberto Di Cosmo : Les premières idées ont commencé à circuler dans l’été 2014.

Frédéric Couchet : Donc deux ans avant en fait.

Roberto Di Cosmo : Deux ans avant.

Frédéric Couchet : Quand il y a l’annonce de l’Inria vous avez déjà commencé à travailler depuis deux ans, vous avez déjà commencé à archiver des logiciels. Tu te souviens au moment de l’annonce de l’Inria combien il y en avait déjà ?

Roberto Di Cosmo : Je pense qu’on avait déjà archivé peut-être un milliard de fichiers sources différents.

Frédéric Couchet : Un milliard de fichiers sources. D’accord !

Roberto Di Cosmo : Ce qui est quand même remarquable ; ce sont des fichiers sources tous différents, uniques. Il faut savoir que justement dans cette période pendant laquelle on était en mode un peu sous-marin, parce qu'on ne voulait pas… Je déteste vendre du slideware, vendre de la fumée.

Frédéric Couchet : Du slideware. En français on traduit ça comment ?

Roberto Di Cosmo : Je ne sais pas comment traduire ça.

Frédéric Couchet : C’est-à-dire uniquement des diaporamas avec des listes à points.

Roberto Di Cosmo : Des diaporamas avec quelques idées et après on ne sait pas comment c’est fait. Je préfère arriver avec un prototype, montrer des choses qui fonctionnent. On avait mis en place une petite équipe, commencé à construire un premier prototype pour donner de la crédibilité à ce qu’on faisait. C’était une démarche pas évidente. Mais tu vois, dans cette période-là où on était en souterrain, c’est-à-dire entre 2014 et 2016, il y a eu deux événements qui ont montré clairement pourquoi c’était important d’avoir une archive. Parce que, comme tu dis, plein de gens se disent pourquoi faire une archive ? Après tout il y a plein de copies à droite, à gauche, il n’y a pas de problème.

Frédéric Couchet : Eh bien oui, c’est sur Internet !

Roberto Di Cosmo : C’est sur Internet, on le trouve, etc. Il faut savoir qu’au mois de mars 2015, c’est assez intéressant, il y avait deux plateformes de développement très populaires à l’époque, une qui s’appelait Gitorious et l’autre qui était Google Code, pas exactement la même quantité d’argent derrière, les deux étaient très populaires. Sur Gitorious il y avait à peu près 120 000 projets de développement logiciel, sur Google Code il y en avait un million et demi. Au mois de mars 2015, il y a deux annonces : d’un côté l’annonce de Gitorious qui se fait racheter par une autre entreprise qui est GitLab. Comme il y a ce rachat-là, ils décident de fermer l’ancienne forge Gitorious, ils ne font pas de transfert de données, ils ont juste donné une annonce.

Frédéric Couchet : Ils ferment sans laisser accès, c’est ça ?

Roberto Di Cosmo : Ils ferment sans laisser l’accès et ils disent tout simplement aux gens : « Écoutez on ne va quand même pas maintenir deux plateformes ; vous avez trois semaines pour tout transférer et après on ferme. » Alors ça a duré un peu plus de trois semaines, heureusement, parce que les gens ont un peu protesté, mais vous voyez un peu le topo. Maintenant effectivement c’est fermé. Si vous allez regarder là-dedans il n’y a plus rien et, en parallèle, Google avait annoncé que bon, bref ! Il y avait d’autres solutions, que Google Code n’était plus forcément justifié à maintenir. Ça c’est leur décision, c’est leur droit de faire ce qu’ils veulent, c’était mis à disposition de façon gratuite, gratuite mais pas libre, justement, et là c’était un milliard et demi de projets qui étaient mis en danger sauf que Google est un peu plus seigneurial donc il a donné un an.

Frédéric Couchet : Donc ils ont laissé plus de temps ! Un an.

Roberto Di Cosmo : Un an, pas trois semaines et ils ont quand même gardé une sorte de version d’archive dans un coin.
Ça c’est arrivé un peu à point nommé parce que ça montrait que le message qu’on envoyait, c’est-à-dire que c’est important de construire une archive — qu’est-ce que c’est une archive ? C’est vraiment une plateforme dont la finalité est l’archivage et pas autre chose — que c’était nécessaire. Après ces deux évènements c’est devenu relativement clair pour tout le monde que c’était nécessaire d’aller dans cette direction-là.

La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.
Par exemple j’ai plein d’amis qui sont dans le monde de la physique : un de mes copains, parti aux États-Unis il y a très longtemps, s’occupe d’un gros projet de télescope spatial. Je suis très admiratif de mes collègues en physique qui sont capables de mobiliser des ressources très conséquentes, là on parle de milliards, de dizaines de milliards d’euros pour chercher à comprendre l’origine de l’univers, regarder les étoiles, regarder l’infiniment petit. Ça c’est super important, je n’ai rien contre, au contraire, je suis très admiratif du fait qu’ils arrivent à le faire. Par contre nous, dans le monde de l’informatique qui est pourtant le moteur de la transformation numérique, jusque-là on a été un peu incapables de fédérer le même type d’effort pour avoir une plateforme commune qu’on puisse, de façon mutualisée, réutiliser pour travailler ensemble, pour améliorer la qualité des logiciels que nous développons.
Évidemment chaque grosse entreprise a son propre système interne. Dans le monde associatif chacun essaie de mettre en place son propre outil technique à tel ou tel autre endroit. Le rêve serait d’arriver à faire quelque chose comme le CERN pour la recherche nucléaire ou les grands réseaux de télescopes spatiaux pour explorer les galaxies. Eh bien nous on a besoin d’une infrastructure pour explorer la galaxie du logiciel. Aujourd’hui ça n’existe pas.
Donc c’était vraiment ces trois constats : pas de catalogue, pas d’archive, pas d’infrastructure de recherche, la situation n’était pas idéale, donc il fallait essayer de faire quelque chose. En mettant en place le projet Software Heritage on essaye, très humblement parce qu’on n’est pas Google, on n’a pas de dizaines de milliards comme certains de mes copains qui travaillent ailleurs, mais on essaye très humblement de construire une réponse à ces trois besoins et de le faire en essayant de mettre de notre côté tous les atouts pour minimiser les risques que le projet échoue, c’est-à-dire pour maximiser les chances de succès.

Frédéric Couchet : Tu dis « on ». Le projet a été annoncé par l’Inria et, comme je l’ai dit tout à l’heure, tu es détaché à l’Inria depuis quelques années.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Qui est ce « on » ? C’est-à-dire qui a lancé ce projet en dehors de l’Inria s’il y en a d’autres ? Qui sont les partenaires ? Comment est financé ce projet ? Tu as parlé d’une équipe. Je suppose que tu as une équipe, je ne sais pas, de 500 personnes pour travailler avec toi.

Roberto Di Cosmo : J’aimerais bien ! Dans le monde de l’informatique, comme tu le sais bien, très souvent la révolution est faite par un tout petit nombre, on grandit plus tard.

Frédéric Couchet : C’est quoi l’équipe Software Heritage ? Essaye de nous expliquer qui est ce « on ».

Roberto Di Cosmo : Je vais vous expliquer. Tu as mentionné l’IRILL. Effectivement dans cette structure qu’on avait mise en place en 2010 pour essayer de tisser des liens entre des communautés de développeurs, des entreprises, des chercheurs qui s’intéressent au problème nouveau, scientifique, qui vient quand on fait du développement de logiciel libre, dans l’été 2014, autour de la machine à café, tu sais qu’on dit souvent que les développeurs sont des machines qui convertissent du café en code, mais des fois on le convertit en idées plutôt qu’en code directement.

Frédéric Couchet : Ou des pizzas en code, des fois.

Roberto Di Cosmo : Ou des pizzas ou des boissons socialisantes quelconques, ça dépend, il n’est pas nécessaire de prendre de la caféine tout le temps. Là on discutait de plein de choses. À partir d’autres idées, d’autres projets de recherche qu’on avait en tête, on s’est aperçu qu’il y avait ce problème et on a passé plusieurs mois à discuter à plusieurs. Moi à l’origine, il y avait Guillaume Rousseau, il y avait Stefano Zacchiroli, il y avait d’autres personnes qui se sont greffées dessus petit à petit et on a identifié le problème, on a écrit des notes d’opportunité, on pourrait dire, qui faisaient un bilan de la situation. Parce que, même si le problème existe, ça ne veut pas dire que nous sommes capables de le résoudre, n’est-ce pas ! La question est de se dire : le problème est là, est-ce que vraiment on a les reins solides pour essayer d’aller dans cette direction-là et comment on peut faire, qu’est-ce qui existe ? Sur la base de ces notes-là, on a pensé qu’il y avait une opportunité de faire quelque chose de bien avec un peu de ressources initiales.
Avec ça j’étais allé voir le directeur de l’Inria à l’époque qui était Antoine Petit, et là il faut dire qu'effectivement, ça fait des fois partie de la chance, qu'il a été convaincu de l’opportunité de cette mission donc il a pris la décision de donner cette impulsion initiale.
Tu vois quand on dit « on », il y a des gens qui ont des idées, mais des idées sans les ressources pour les implémenter, il y a plein dans les tiroirs !

Frédéric Couchet : Le soutien du directeur a été un grand atout évidemment.

Roberto Di Cosmo : Un grand atout, mais aussi toute l’institution. L’Inria est une institution qui à l’origine avait été capable, il y a 22 ans, de soutenir le lancement du W3C, le World Wide Web Consortium qui est le consortium mondial qui maintient les standards du Web et qui a permis au Web de devenir ce qu’il est devenu maintenant. Donc ils ont déjà montré leur capacité à soutenir un projet sur le long terme et de façon partenariale, pas en disant : c’est à moi, c’est à l’Inria.

Frédéric Couchet : Pas tout seul.

Roberto Di Cosmo : Mais en disant : OK on travaille à plusieurs. Ça c’était un peu le début. Là on a commencé à avoir un peu de ressources pour travailler. Quand je dis un peu de ressources c’était juste un ingénieur, Antoine Dumont qu’on avait recruté comme premier ingénieur. Il y a Nicolas Dandrimont, qui était dans l'émission la semaine passée, qui nous a rejoints quelques mois après et là on a commencé un petit peu à construire. Mais la mission, dès le départ, était de ne pas être tout seuls, de ne pas être juste Inria. Il fallait avoir d’autres partenaires autour. Donc là c’était un travail énorme, si tu regardes l’historique on n’est pas encore public, on est en train de parler 2015, avant l’annonce en 2016 et là on essaye de contacter plein d’entités : la Free Software Foundation, on a contacté l’Open Source Initiative, on a contacté Creative Commons, on a contacté des sociétés savantes, françaises, européennes, internationales ; on a contacté des fondations comme la fondation Linux, la fondation Eclipse, plein d’autres instituts comme ça pour leur dire ce qu’on allait faire, pour savoir si elles allaient nous soutenir.

Frédéric Couchet : Si elles voulaient soutenir, participer.

Roberto Di Cosmo : Là on a obtenu un soutien qui était important mais qui était un soutien moral, pas financier, il faut quand même payer le développeur à la fin du mois, ça ne suffit pas d’être un soutien moral, mais c’est très important.

Frédéric Couchet : En tout cas ces structures qui sont des structures importantes dans le monde du logiciel libre ont considéré que ce projet était fondamental, donc qu’il fallait le soutenir au moins moralement, déjà.

Roberto Di Cosmo : Exactement. Donc là si tu vas sur le site de Software Heritage aujourd’hui, wwww.softwareheritage.org, tu vas regarder dans la partie soutiens, il y a des témoignages. Il y a une cinquantaine de lettres officielles de tout un tas d’entités diverses et variées qui disent pourquoi elles considèrent que le sujet est important et pourquoi le projet est structurant pour elles.
Là on avait déjà commencé à avoir des premiers contacts avec l’Unesco, parce que c’est quand même une mission universelle, c’était bien de travailler avec eux. Mais ça ne suffisait pas, il fallait chercher des partenaires qui partagent la charge financière d’un tel projet avec Inria, dont la vocation est de lancer le projet mais pas, quand même, de le maintenir pendant 50 ans en payant tout, tout seul. Ce n’est pas, comment dire, ce n’est pas soutenable et ce n’est pas souhaitable non plus si tu veux minimiser les risques d’échec.

Frédéric Couchet : Pour la pérennité du projet il faut qu’il y ait plusieurs acteurs, plusieurs partenaires.

Roberto Di Cosmo : Il faut plusieurs partenaires autour de la table. Et c’est là que ça devient paradoxal, parce qu’on avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.

Frédéric Couchet : Donc tu vas renouer des liens avec Microsoft à cette époque-là !

Roberto Di Cosmo : Et ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction et j’ai découvert qu’il y a, je ne sais pas si je peux dire ça, mais je pense que ça doit être facile avec toi.

Frédéric Couchet : Nous sommes en direct, je te préviens !

Roberto Di Cosmo : Je ne vais pas le dire, il y avait un nombre très conséquent d’ingénieurs à Microsoft, déjà en 2015, qui travaillaient en faisant seulement du logiciel libre. Après c’est devenu public. Dans l’été 2016, Microsoft a été l’un des premiers contributeurs à des projets logiciel libre sous GitHub à la grande surprise de tout le monde, c’est devant tout le monde ! Qu’est-ce qui se passe ? Tout le monde a le droit de changer d’idée, n’est-ce pas, de temps à l’autre !

Frédéric Couchet : Au moins partiellement on va dire !

Roberto Di Cosmo : Je vais y venir. Au moins sur la partie technique, le développement technique, stratégie industrielle à long terme, ils ont vraiment complètement changé d’attitude, complètement. Après il reste tout un tas d’autres choses sur lesquelles on pourrait débattre longuement. Restons sur la partie positive. On a retrouvé un point d’intérêt commun, donc ils ont été les premiers acteurs industriels à répondre présent.
Par contre le deuxième acteur qu’on avait mentionné, l’Archive nationale de l’Académie des sciences hollandaise, c’est une institution publique donc c’était tout à fait naturel de la retrouver à nos côtés parce que leur mission c’est d’archiver les données de la recherche en Hollande ; ils ont énormément de demandes de la part de chercheurs qui disent : « Bon, très bien, archiver des données c’est très bien, mais qu’est-ce que je fais avec mes logiciels ? Où est-ce que je mets mes codes sources ? » Ils avaient des demandes comme ça, ils ne savaient pas exactement comment les traiter. Quand ils ont découvert ce qu’on faisait dans Software Heritage, ils ont sauté immédiatement sur l’occasion en disant : il faut qu’on travaille ensemble. Maintenant on travaille ensemble dans un projet européen, par exemple. C’est naturel de trouver ces deux-là, mais ça ne suffisait pas, il fallait élargir. Si vous regardez sur le site aujourd’hui il y a un certain nombre de sponsors qui sont arrivés : on s'est retrouvé Intel aussi qui est devenu sponsor ; on a retrouvé GitHub, évidemment.

Frédéric Couchet : Une archive d’hébergement de code.

Roberto Di Cosmo : GitHub qui est une plateforme de développement de code.

Frédéric Couchet : Et une société aux Pays-bas, si je me souviens bien.

Roberto Di Cosmo : GitHub est à San Francisco.

Frédéric Couchet : San Francisco d’accord.

Roberto Di Cosmo : Et a été racheté par ailleurs, c’est le monde à l’envers ; ça a été racheté par Microsoft cet été pour 7 milliards de dollars, c’est assez intéressant.

Frédéric Couchet : Ah ! Tu parlais de GitHub, excuse-moi.

Roberto Di Cosmo : GitHub, oui, tout à fait.

Frédéric Couchet : D’accord. Je croyais que c’était GiLab, excuse-moi.

Roberto Di Cosmo : Non, GitLab c’est autre chose. On a des contacts avec GitLab aussi, on a archivé aussi GitLab. Donc on a élargi petit à petit disons l’ensemble des partenaires, des sponsors, qui sont tous des mécènes. C’est-à-dire que ce qu’ils font ce sont des donations, il n’y a pas de contreparties. Ils font vraiment des financements qui servent à faire grandir le projet parce qu’ils trouvent que c’est une infrastructure…

Frédéric Couchet : Donc c’est de la contribution financière ou est-ce que c’est aussi de la contribution humaine avec la mise à disposition de personnel ?

Roberto Di Cosmo : Pour l’instant c’est essentiellement de la contribution financière, il n’y a pas de mise à disposition de personnel.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : La mise à disposition de personnel c’est compliqué.

Frédéric Couchet : Oui, mais ça aurait pu être.

Roberto Di Cosmo : Ça aurait pu être, mais ça commence à arriver : on commence à avoir des contributions qui viennent de certaines entreprises, mais pas vraiment du personnel qui est mis chez nous.

Frédéric Couchet : Donc ça permet de financer une équipe de combien de personnes aujourd’hui, pour Software Heritage ?

Roberto Di Cosmo : Aujourd’hui si tu regardes sur le site de Software Heritage tu trouveras, je ne veux pas dire de bêtises, mais je pense que tu vas trouver probablement 14 ou 15 photos.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : Peut-être un peu plus parce que sur le site web on a mis aussi le conseil scientifique. Donc ça fait quand même une dizaine de personnes qui travaillent sur le projet à temps plein. On a un peu grandi depuis l’époque où on était deux-trois.

Frédéric Couchet : La machine à café s’est un peu agrandie.

Roberto Di Cosmo : La machine à café est toujours là, elle s’est un peu agrandie, et on est accueilli dans de très bonnes conditions chez Inria pour pouvoir travailler sur le projet

Frédéric Couchet : Donc l’équipe est physiquement, toutes les personnes sont ici à Paris ?

Roberto Di Cosmo : Physiquement ici à Paris, dans les locaux d’Inria, pour l’instant accueillis là, ce n’est pas forcément la position définitive. Ce qu’il faut quand même remarquer c’est que les dix à temps plein qui sont là maintenant – c’est seulement maintenant qu’on est arrivés à dix, on s’est agrandis petit à petit – on fait quand même un travail qui est énorme. On peut penser que dix c'est beaucoup, mais en réalité on est tout petits par rapport à la mission monstre qu’on s’est donnée. Effectivement il y a tout un tas de questions à se poser : quelle garantie d’y arriver à long terme ? Quelle stratégie mettre en place pour pouvoir travailler sur tout ça ? Je dois dire quand même que la première étape est d’avoir toutes les personnes qui sont dans l’équipe qui sont extrêmement motivées pour travailler là-dedans. Nicolas qui était là la semaine passée est un ancien acteur du monde du logiciel libre, Stefano Zacchiroli était leader du projet Debian pendant trois ans,

Frédéric Couchet : Leader du projet Debian.

Roberto Di Cosmo : C’est un chercheur magnifique. Il y a d’autres personnes qui sont motivées. Des fois il n’y a pas que l’argent qui fonctionne.

Frédéric Couchet : Tout à fait.

Roberto Di Cosmo : Des fois il y a une vraie motivation et c’est ça qui aide beaucoup.

Frédéric Couchet : C’est une bonne conclusion pour cette première partie d’émission. On va faire une pause amicale. Nous allons écouter Mountains par Cud Eastbound et on revient juste après ça.

Pause musicale : Mountains par Cud Eastbound.

Frédéric Couchet : Vous êtes de retour sur Cause Commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Vous écoutez l’émission Libre à vous !, l’émission pour comprendre et agir avec l’April l’association de promotion et de défense du logiciel libre. Nous venons d’écouter Mountains par Cud Eastbound qui est disponible en licence Creative Commons Partage à l’identique. J’en profite pour rappeler que toutes les musiques que nous diffusons sont librement partageables, y compris pour des usages commerciaux. Vous retrouvez la référence sur le site de l’April donc april.org.

Je suis toujours en compagnie de Roberto Di Cosmo, professeur d’informatique et directeur de l’initiative Software Heritage. Nous allons poursuivre la discussion. Nous avons parlé, avant la pause musicale, un petit peu d’où venait le projet, les raisons pour lancer ce projet, où ce projet en est, où cette initiative en est aujourd’hui avec une équipe certes réduite mais de gens très motivés et de libristes de longue date, on a cité plusieurs noms. Maintenant on va parler un petit peu du fonctionnement de Software Heritage du point de vue technique et puis du futur.
Peut-être première question, Roberto, Software Heritage est une archive, tout à l’heure tu disais que le but c’était de garantir la pérennité de ces codes sources, patrimoine culturel, économique, industriel et scientifique. Cette archive est hébergée sur les internets, comme on dit, quelque part. Est-ce qu’elle est sur plusieurs sites ? Comment techniquement ça fonctionne ?

Roberto Di Cosmo : Effectivement c’est une très bonne question. Quand on réfléchit à un projet comme Software Heritage on se place dans une logique de long terme. La question de comment maintenir l’information à long terme est cruciale. Il y avait essentiellement deux choix qu’on pouvait faire au début. Un premier choix aurait été de dire : on construit un super datacenter, un centre de données ultra-sécurisé, complètement caché.

Frédéric Couchet : Une solution à la française quoi !

Roberto Di Cosmo : Pas à la française. On prend les meilleurs ingénieurs du monde, on cache tout et on dit à tout le monde : « C’est secret il n’y a rien à voir, on est les meilleurs du monde, on ne sera jamais piratés, on ne perdra jamais de données, on ne fera jamais d’erreurs, etc. » À nouveau, comme j’ai un peu de poils blancs dans la barbe, je sais très bien qu'en général ce type d’approche marche peu. Donc j’ai dit : je ne suis pas capable de le faire fonctionner comme ça. Donc on a préféré prendre une stratégie différente qui est de dire : on sait qu’il y aura des erreurs, on sait qu’il y aura des pertes de données, on sait qu’il y aura des problèmes. Il peut y avoir un centre de données qui brûle, il peut y avoir un tremblement de terre, il peut y avoir un pirate qui rentre dedans qui détruit des données, on peut avoir des problèmes, c’est inévitable, ça fait partie de la vie donc il faut structurer le projet de telle façon qu’il résiste à ce type d’erreurs, qui soit résilient sur le long terme. Qu’est-ce que ça veut dire ?
La base de notre stratégie est :
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs ;
deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc par exemple aujourd’hui, Software Heritage dispose de trois copies de l’archive : deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.

Frédéric Couchet : Donc ce sont les mêmes données.

Roberto Di Cosmo : Ce sont les mêmes données mais sur trois endroits différents.

Frédéric Couchet : Qui sont sur trois infrastructures physiques différentes.

Roberto Di Cosmo : Sur trois infrastructures différentes, mais les infrastructures, toutes les trois, sont sous notre contrôle, sous le contrôle de l’organisation Software Heritage aujourd’hui. Le fait que ça soit à trois endroits physiquement différents et pas forcément la même technologie — si tu vas sur Azure, même si c’est une base Debian, en réalité la techno qui est derrière (les machines, etc.) c’est différent de chez nous —, c’est un peu rassurant. Mais imagine qu’on devienne tous fous, les dix de l’équipe décident de tout détruire et de tout brûler, une sorte de Samson « Que je meure avec les Philistins », comme on dit, on pourrait le faire. Donc il faut quand même se protéger de ce dommage-là. Donc là on a besoin de ce qu’on appelle des miroirs. Qu’est-ce que c’est un miroir ? Un miroir, pour nous, c’est une copie mais qui est sous le contrôle administratif et technique de quelqu’un d’autre. Sous une entité qui n’est pas Software Heritage, mais avec qui, évidemment, on a passé des accords pour les questions d’éthique, juridiques, etc., mais qui n’est pas nous.
C’était dans notre plan depuis le départ et en décembre passé, il y a quelques semaines, on a annoncé qu’on a signé le premier accord pour la création d’un miroir. Ça sera en Suède, ça sera porté par une société qui s’appelle FOSSID. Ce n’est pas encore fait, la partie technique est à développer, mais au moins l’accord est là, et on met la première pierre de ce réseau de miroirs qui va nous protéger de la perte de données.
C’est très intéressant d’en parler aujourd’hui. Tu as mentionné la réforme du droit d’auteur. Il y a plusieurs dangers qui guettent un projet comme le nôtre. Il y a des dangers techniques, par exemple tu as cassé un disque, tu as perdu des choses, tu t’es trompé dans le logiciel qui a corrompu toutes les données, ce sont des choses qui peuvent arriver, mais il y a des risques, d’une certaine façon, plus subtiles, plus néfastes qui sont des risques juridiques. Il se peut qu’un miroir, une copie de l’archive, se trouve dans un pays ou dans une zone géographique dans lesquels, à un moment donné, sont passés des textes de loi qui rendent difficile voire impossible, voire illégal, de faire ce travail d’archivage. Et c’est effectivement ce qui est en train d’arriver avec cette fameuse réforme du droit d’auteur, un article 13 qui oblige toutes les plateformes qui partagent du contenu couvert par le droit d’auteur de mettre en place des filtres avec des autorisations, il y a un droit qui est très contraint, on ne va pas rentrer dans ça, ce n’est pas le sujet aujourd’hui.

Frédéric Couchet : Je précise qu’on en parlera la semaine prochaine avec Anne-Catherine Lorrain qui travaille pour le groupe des Verts au Parlement européen parce que cette semaine il y a une négociation interministérielle au niveau européen qui se déroule donc on en saura plus à la fin de la semaine et la semaine prochaine on fera un point là-dessus.

Roberto Di Cosmo : Absolument. Donc effectivement ce débat-là nous a pris, côté Software Heritage, pas mal de temps parce qu’on le voyait comme un danger : pour le travail qu’on est en train de faire c’est un vrai danger ! Donc le fait d’avoir des miroirs dans d’autres juridictions ça protège aussi de ces risques juridiques ; il n’y a pas seulement les risques techniques. Cela dit, ça c’est l’objectif, il faut y arriver. Ça prend un peu de temps d’y arriver, je vous signale.

Frédéric Couchet : Ça c’est l’objectif. Donc le principe technique, on va le répéter pour que les personnes comprennent bien : il y a trois archives sous le contrôle du projet Software Heritage : deux sont sur une infrastructure Inria, une sur une infrastructure Azure Microsoft et, en plus de cela, il y a un principe de miroirs sur lesquels Software Heritage n’a pas d’accès on va dire direct de contrôle.

Roberto Di Cosmo : En écriture.

Frédéric Couchet : À part un contrat et le premier projet de miroir c’est FOSSID. FOSSID ça veut dire free open source software ?

Roberto Di Cosmo : Non. C’est une entreprise qui est en Suède qui fait de l’analyse de code pour des questions de licences.

Frédéric Couchet : D’accord. Donc ils sont intéressés. Donc on voit l’intérêt du projet : ce sont des gens qui sont intéressés aussi par rapport à l’analyse de code qui est un point très important. On pourrait imaginer que des universités soient intéressées pour les étudiants, pour mettre à disposition, parce qu’on sait très bien – on a appris l’informatique tous les deux, toi peut-être un petit peu avant moi, comme tu le dis assez, avec ta barbe un peu blanche – que souvent la meilleure façon d’apprendre eh bien c’est de regarder ce qui a été fait par d’autres personnes. Donc des universités pourraient être intéressées par cette masse de code disponible.
D’ailleurs j’ai une question avant de poursuivre sur la partie archive miroir, est-ce que ce ne sont que des logiciels libres ? Est-de que ce ne sont que des codes sources de logiciels libres qui sont hébergés dans le projet ou est-ce que ça peut être des codes sources d’autres logiciels ?

Roberto Di Cosmo : C’est une très bonne question. Je vais même généraliser la question. La question est de savoir comment on décide de ce qui mérite d’être archivé dans l’archive de Software Heritage. Effectivement la position qu’on a prise dans Software Heritage c’est quelque chose qui fait un peu dresser les cheveux sur la tête quand j’en parle avec des gens qui sont habitués à de l’archivage traditionnel, que ça soit dans des bibliothèques ou ailleurs. Nous on a pris une position très particulière : on essaye d’archiver tous les codes sources qui sont publiquement disponibles, c’est-à-dire auxquels on peut avoir accès, donc on ne filtre pas spécialement sur le fait qu’ils soient des beaux logiciels ou des logiciels pas très beaux, ou que la licence permette explicitement la redistribution donc qui soient vraiment des logiciels libres, ou que ça soit juste des codes qui ont été mis à disposition dont la licence n’est pas super claire, etc.

Frédéric Couchet : Mais elle permet au moins de faire la copie du code.

Roberto Di Cosmo : Au moins de faire la copie. L’idéal ça serait à terme d’arriver à avoir vraiment tous les logiciels, même les anciens, parce si tu veux les logiciels qui sont propriétaires aujourd’hui, tant qu’on ne change pas encore une fois le droit d’auteur.

Frédéric Couchet : Qu'on n’étend pas le droit d’auteur.

Roberto Di Cosmo : Au-delà de ce qui est raisonnable.

Frédéric Couchet : Au-delà de ce qui est raisonnable, ce qui est déjà le cas, nous sommes d’accord.

Roberto Di Cosmo : Normalement au bout de 70 ans ils deviennent du domaine public.

Frédéric Couchet : Après la mort de l’auteur.

Roberto Di Cosmo : Oui. En réalité pour les logiciels industriels c’est à partir de leur mise sur le commerce.

Frédéric Couchet : Ah pour les logiciels industriels, d’accord.

Roberto Di Cosmo : Oui, les logiciels industriels. Et effectivement après la mort de l’auteur c’est un peu compliqué, mais l’idée ça serait mieux de les avoir, question de pouvoir les mettre à disposition plus tard. Là j’aurais plein d’anecdotes à raconter, mais je ne vais pas les raconter maintenant.

Frédéric Couchet : Oui, parce que sinon on n’aura pas le temps dans l’émission. Ce sera pour une deuxième émission. Donc c’est tout le code, en fait, qui est disponible sur Internet.

Roberto Di Cosmo : Voilà. On essaye de le collecter et maintenant on a ouvert plein de pistes c’est-à-dire techniquement, je vais donner quelques éléments techniques supplémentaires. Pour les grandes plateformes de développement comme GitHub qui est très populaire aujourd’hui ou GitLab ou même la forge Inria ou même Framagit qui est la forge mise à disposition par Framasoft ici en France, ce qu’on fait on met en place un mécanisme de moissonnage automatique. C’est-à-dire qu’on va collecter tous les logiciels qui sont disponibles là-dessus et on les intègre automatiquement. Par contre on a aussi rajouté des pistes pour pouvoir, de façon explicite, déposer des logiciels, par exemple des logiciels développés dans la cadre de la recherche académique, pouvoir les déposer. Là on a fait un partenariat avec un portail national qui s’appelle HAL.

Frédéric Couchet : HAL, H, A, L ?

Roberto Di Cosmo : H, A, L, c’est une sorte de portail open access pour l’accès ouvert aux publications et maintenant il y a un mécanisme pour déposer aussi du code scientifique dedans. Et plus récemment on a ouvert un mécanisme qu’on appelle, tu me passeras l’anglais, save code now.

Frédéric Couchet : Sauvegardez votre code maintenant.

Roberto Di Cosmo : Maintenant. Donc c’est possible de nous indiquer qu’il y a certains endroits dans lesquels il y a du code important et, en nous indiquant cette piste-là, nous, après, on le rajoute aux moissonneurs.

Frédéric Couchet : Oui, parce qu’évidemment Software Heritage ne peut pas avoir connaissance de tout le code qui existe sur Internet, ça paraît compliqué. J’ai une question sur les plateformes d’hébergement de logiciels que tu as citées, est-ce que ces plateformes donnent un accès complet, exhaustif, à l’ensemble des codes qui sont hébergés ? C'est-à-dire est-ce que Software Heritage a une certitude, en fait, de pouvoir récupérer tout le code que ces plateformes hébergent, d’un point de vue technique ?

Roberto Di Cosmo : D’un point de vue technique la réponse est oui. Disons que techniquement c’est compliqué, on ne va pas rentrer dans les détails, mais oui on peut y arriver. Par exemple tout ce qui est disponible publiquement sur GitLab ou sur GitHub, etc., techniquement on pourrait être capables d’obtenir absolument tout et d’être à jour même très rapidement. Après il ne faut pas oublier qu’on est une petite équipe, qu’on a commencé avec des ressources relativement limitées ; si on avait des milliards on ferait beaucoup plus. On n’a pas des milliards !

Frédéric Couchet : Ma question n’est pas forcément sur l’équipe.

Roberto Di Cosmo : Est-ce qu’il y a un filtre qui nous a empêche de l’obtenir ?

Frédéric Couchet : Est-ce que la plateforme d’hébergement propose déjà une liste exhaustive de ces projets en disant là c’est facile de récupérer ?

Roberto Di Cosmo : Les plateformes plus récentes comme GitLab ou GitHub fournissent effectivement une interface accessible pour les machines, ce qu’on appelle des API, c’est-à-dire une interface de programmation qui permet de lister les contenus. Donc on a au moins accès à la liste des contenus qui sont disponibles et après, si on peut suivre les évènements, on peut télécharger les choses de façon plutôt raisonnable. Les anciennes plateformes comme SourceForge qui existait déjà il y a 20 ans et qui sont un peu…

Frédéric Couchet : Sur le déclin !

Roberto Di Cosmo : Pas sur le déclin, il y encore des logiciels très importants qui sont développés dedans.

Frédéric Couchet : Oui, il y en a plein !

Roberto Di Cosmo : Par contre ils n’ont même pas ça, ils n’ont même pas une interface qui permet de lister les contenus. Donc là c’est assez compliqué, il faut aller travailler avec eux pour obtenir les choses, on ne l’a pas encore fait, ça fait partie de la roadmap et c’est beaucoup d’efforts pour pas grand-chose comme résultat.

Frédéric Couchet : Ça pourrait être un effort de SourceForge ou des personnes qui maintiennent SourceForge de proposer ça.

Roberto Di Cosmo : Exactement. De proposer cette interface.

Frédéric Couchet : Effectivement, peut-être que quand ils ont créé ce genre de plateforme ils ne sont pas mis en tête : tiens il y a un Roberto Di Cosmo qui arrivera un jour pour pouvoir archiver tout ce qu’il y a dessus, donc ils n’ont pas proposé cette simple information sur l’ensemble des projets qui sont disponibles sur la plateforme. Donc c’est à ces structures-là de faire ce travail.

Roberto Di Cosmo : Là, au passage, j’en profite pour dire merci à l’ADULLACT, on a travaillé avec elle.

Frédéric Couchet : L’association des développeurs et utilisateurs de logiciels libres dans l’administration et les collectivités territoriales françaises.

Roberto Di Cosmo : Très bien. Je vois que tu te rappelles l’acronyme, c’est super, et qui a aidé à développer une sorte de plugin, un greffon qui a été rajouté sur la technologie des forges qui s’appelle FusionForge qui est une évolution de SourceForge et qui fait en sorte que maintenant il est possible de moissonner les contenus qui sont une instance de FusionForge, en particulier celle de l’ADULLACT a mis en place ça. Donc ça fait partie de ce travail collaboratif dans lequel je vais essayer juste d’arriver à dire ça clairement : la mission qu’on s’est donnée est quand même énorme, herculéenne et on n’y arrivera jamais si on le fait tout seuls. Donc toute la stratégie du projet est de rendre facile et possible à tout le monde de participer.

Frédéric Couchet : Tu parles de l’ADULLACT. Le 8 janvier on recevait Laurent Joubert et Mathilde Bras de la DINSIC, la Direction interministérielle du numérique et de la société de l’information et de la communication, j’ai un petit doute sur l’acronyme [Direction interministérielle du numérique et du système d’information et de communication], en tout cas on va dire la direction informatique de l’État et Laurent Joubert avait annoncé qu’il y avait un partenariat qui se créait entre la DINSIC et Software Heritage pour que Software Heritage archive les codes sources publiés par l’administration.

Roberto Di Cosmo : Absolument. Ça c’est l’objectif, ce qu’on fera. Si tu veux dans l’État français, normalement, il y a une obligation d’archivage des données publiques en particulier, donc il y a des Archives nationales ; maintenant quand on passe dans le monde numérique, il faut avoir des archives numériques. Il y a tout un tas d’initiatives pour archiver plein d'informations numériques de l’État français. Pour ce qui concerne les codes sources des logiciels l’idée que tout ça soit archivé dans Software Heritage qui est une plateforme qui n’archive pas seulement les codes sources de l’administration mais aussi les codes sources de l’administration française ; pas la peine d’en faire 42 ! L’idée c’est de les remettre ensemble et de travailler en bonne entente avec les services de l’État pour faire en sorte que les différentes plateformes de développement qui sont un peu éparpillées dans les différents ministères, dans différents endroits, soient toutes tracées, indexées, pour permettre l’archivage systématique dans Software Heritage.

Frédéric Couchet : Tout à l’heure tu as dit que quand le projet a été lancé en 2016 il y avait, si je me souviens bien, un milliard de codes sources ou de lignes.

Roberto Di Cosmo : Un milliard de fichiers.

Frédéric Couchet : Un milliard de fichiers. Aujourd’hui est-ce qu’il y a des statistiques sur le nombre de projets qui sont archivés par mois pour donner un ordre d’idée de la progression ?

Roberto Di Cosmo : Bien sûr. Nous on est très logiciel libre, très transparents, très ouverts. Si tu vas sur le site web qui est www.softwareheritage.org/archive, donc tu vas dans l’archive, tu trouveras des jolis graphiques qui sont à jour, qui montrent que maintenant on doit être à 88 ou 89 millions de projets indexés. À peu près 5 milliards et demi de fichiers sources uniques. Il y a de jolis graphiques qui te montrent comment ça évolue dans le temps.

Frédéric Couchet : Comme on a Internet et que j’ai un ordinateur devant moi, effectivement les fichiers sources c’est 5 milliards, 6, visiblement ; ça représente 23 millions de personnes différentes, 88 millions de projets. On regarde et on voit un certain nombre de plateformes qui sont automatiquement archivées, tout à l’heure tu as cité GitLab, GitHub, il y a aussi Framagit que tu as cité, Debian, le projet GNU et puis d’autres projets. C’est sur softwareheritage.org/archive. Donc c’est une grosse progression.

Roberto Di Cosmo : Absolument.

Frédéric Couchet : Et je suppose que ça a un impact, tout à l’heure on parlait des données, sur la taille de l’archive. D’ailleurs j’ai une question peut-être un peu technique, le temps passe : est-ce que vous avez pour la conservation de ces fichiers qui viennent pour beaucoup, en fait, de plateformes d’hébergement qui utilisent Git, est-ce que vous êtes partis sur la même architecture technique ou est-ce que vous avez développé quelque chose de spécifique pour Software Heritage ?

Roberto Di Cosmo : C’est une très bonne question. L’idée, à nouveau, c’est qu’il faut se placer dans une logique de long terme. L’idée c’est d’essayer de ne pas réinventer des choses qui existent. Si tu inventes encore des standards différents c’est un peu compliqué, mais, par contre, essayer de réutiliser les meilleurs qui existent à chaque moment donné.
En particulier sur l’architecture technique des modèles de données qu’il y a derrière l’archive de Software Heritage c’est essentiellement le même modèle de données que tu as derrière Git mais avec une grosse différence c’est qu’on utilise ce même modèle de données pour tous les projets mélangés. Effectivement, peu importe d’où vient un fichier source, un répertoire, un commit, une release, etc., on mélange tout dans un énorme graphe dans lequel s’il y a un bout de projet qui a déjà été utilisé dans un endroit et on le trouve à un deuxième endroit on ne le copie pas, on ne le duplique pas, on garde juste la trace que c’est le même objet.

Frédéric Couchet : Ce qui permet de sauvegarder de l’espace disque.

Roberto Di Cosmo : Ça permet de réduire le coût, parce qu’un espace disque c’est monstrueux. Tout ce que vous voyez maintenant sur l’archive fait un peu plus de 200 téraoctets de données et quelques téraoctets de base de données pour le graphe central, ce qui est microscopique par rapport à ce que ça archive.

Frédéric Couchet : Par rapport à ce que ça archive.

Roberto Di Cosmo : Parce qu’il y a énormément de duplications dans le travail de développement d'un logiciel. On réutilise énormément des fichiers qui existent déjà dans d’autres projets, on fait ce qu’on appelle des forks, etc. Donc nous on a un modèle d’archivage qui est structuré exactement pour passer à l’échelle de ce mécanisme de fortes duplications diverses et variées.

Frédéric Couchet : Un fork c’est qu’on part d’un projet et on va en faire une version modifiée donc évidemment la version modifiée va avoir une bonne partie du code original parce que c’est le principe et c’est aussi l’un des principes du logiciel libre. Je précise juste que Git dont on parle depuis tout à l’heure c’est, en gros, un logiciel de gestion de versions décentralisé qui est très utilisé, qui date peut-être d’une quinzaine ou d’une vingtaine d’années maintenant.

Roberto Di Cosmo : Je ne veux pas dire de bêtise, je pense que c’est 2005-2006, c’est Torvalds qui avait fait ça.

Frédéric Couchet : Et c’est initialement développé par Linus Torvalds qui est aussi le développeur original du noyau Linux et qui est toujours, je crois, à la tête, du développement du noyau. Donc 200 téraoctets, ça peut paraître beaucoup, mais en fait, par rapport à ce que ça sauvegarde, c’est…

Roberto Di Cosmo : Mais attention quand même ça grandit, ça va grandir.

Frédéric Couchet : Oui, ça s’agrandit. Même si on peut espérer peut-être qu’une bonne partie des codes existants ont déjà été archivés. Le temps passe vite à la radio et le sujet est passionnant, mais tout à l’heure tu parlais des problèmes juridiques dont, notamment, la directive droit d’auteur et c’est vrai que dans le passé on a dû aussi passer pas mal de temps ensemble et avec d’autres à se battre pour nos libertés que ce soit contre les brevets logiciels ou d'autres trucs dans le genre. Quels sont les deux grands défis, on va dire technique et juridique peut-être, s’il y en a encore, pour Software Heritage aujourd’hui ?

Roberto Di Cosmo : Sur la partie technique effectivement, je prends une petite parenthèse mais ça vaut vraiment la peine. Au moment où on a lancé le projet on se disait bon, bref ! On construit cette infrastructure, on utilise un peu la technologie qu’on connaît aujourd’hui, on essaye d’utiliser la meilleure, bien sûr, avec des gens motivés et de très bon niveau, et après on utilisera tout ça pour faire de la recherche sur ces informations. Après on s’est aperçus, petit à petit, que l’infrastructure même que nous sommes en train de construire est un projet de recherche lui-même parce qu’il y a tout un tas de défis techniques qu’on n’imaginait pas tout à fait au moment où on a commencé. Finalement c’est une architecture distribuée dans laquelle on stocke une énorme quantité de fichiers qui sont relativement petits, on ne sait pas exactement ce qui est nécessairement standard dans le monde industriel d’aujourd’hui. Il y a des questions de réplication, de sûreté, il y a énormément d’indexation dans ces graphes très grands, comment construire des moteurs de recherche là-dessus, donc effectivement il y a énormément de défis ; il y en a plein. En même temps c’est un problème amusant parce que ça permet de faire venir, j’espère, d’attirer un certain nombre d’équipes de recherche qui cherchent des problèmes intéressants. Là il y en a plein ! Il faut qu’elles viennent.

Frédéric Couchet : C’est une base de données à gérer qui est monstrueuse, donc c’est intéressant.

Roberto Di Cosmo : Il y a plein de problèmes. Il faut juste savoir, et tu le sais bien, que dans le monde académique, on prend du temps. Entre le moment où tu intéresses quelqu’un au problème, le moment où les gens commencent à y travailler il se passe déjà un an, peut-être deux, et le moment où il y a un résultat que tu puisses industrialiser, mettre dedans, ça peut mettre quatre ou cinq ans. Mais ce n’est pas grave parce que nous on est dans une logique de long terme. L’idée c’est de créer vraiment une activité de recherche autour qui améliore l’infrastructure petit à petit. Après je ne veux pas rentrer trop dans la partie super technique.

Frédéric Couchet : Non. Et la partie juridique, à part le projet de directive droit d’auteur qui est un gros problème juridique mais dont on espère que ça sera terminé bientôt, est-ce qu’il y a d’autres défis juridiques ?

Roberto Di Cosmo : Je ne sais pas si j’appellerais ça vraiment des défis juridiques, c’est plutôt organisationnel. Je résume un peu cette idée. On se place dans une logique de long terme : comment construire quelque chose qui est vraiment résistant aux risques sur le long terme ? On l’avait déjà dit avant, on veut avoir plusieurs partenaires, on ne veut pas construire une entreprise qui peut-être rachetée ou peut faire faillite, on ne veut pas dépendre d’un seul acteur qui peut changer d’avis même s’il est très riche, comme c’était le cas de Google quand il a fermé Google Code, ce n’est pas juste une question d’argent, c’est aussi une question de stratégie.

Frédéric Couchet : Ça permet de rappeler que même si ce sont des grandes structures comme Google ou autre des fois ça peut fermer du jour au lendemain. On peut le rappeler à pas mal de personnes dont la vie informatique dépend de ces géants.

Roberto Di Cosmo : Oui ! C’est juste une décision qui est prise par une gestion. Ils ont sûrement leurs raisons. Il est important d’avoir une structure qui contrôle le projet, qui pilote le projet avec exactement la mission de faire seulement ce qui est dit dans le projet c’est-à-dire collecter, préserver, rendre disponibles les codes sources de toute la planète.
On réfléchit maintenant à la mise en place d’une stratégie pour devenir pérenne. Au début c’était un projet hébergé par Inria qui continue de nous soutenir. Maintenant on est dans une phase de transition, on commence à construire une infrastructure juridique qui est une fondation, en vérité, et à terme on veut arriver sur l’équivalent d’une structure de fondation dans laquelle on pourra avoir justement plusieurs partenaires qui travaillent ensemble avec une dotation pérenne pour faire en sorte que le projet soit viable à très long terme, que moi je puisse partir à la retraite, le plus vite possible, en allant pêcher tranquillement sans avoir à courir après les sponsors toutes les deux minutes !
Donc là c’est construire vraiment la bonne structure, ça prend effectivement du temps. Mettre en place la bonne organisation pour que ça fonctionne bien, ça prend du temps.
Une autre partie de la stratégie qui est très intéressante : quand on construit une infrastructure comme Software Heritage on ne s’intéresse pas seulement au monde de l’industrie, on ne s’intéresse pas seulement au monde de la recherche, on ne s’intéresse pas seulement au monde de la culture, on ne s’intéresse pas seulement au monde associatif, aux administrations publiques, en réalité on construit une infrastructure qui est au service de tous. Donc c’est vraiment important d’arriver à amener autour de la table — comme tu disais le cas de la DINSIC est très important — des administrations publiques, d’amener autour de la table des entreprises, d’amener autour de la table des entités comme l’Unesco qui sont intéressées à préserver le patrimoine logiciel, mais aussi énormément d’autres contributeurs. Par exemple l’année passée on a fait l’effort de mettre en place sur le site web du projet de Software Heritage un gros bouton rouge qui dit Donate. Même si quelqu’un veut donner dix euros pour soutenir le projet, c’est bienvenu, même si c’est petit ce n’est pas très grave ; l’important c’est diversifier au maximum.

Frédéric Couchet : Les sources de financement.

Roberto Di Cosmo : Les sources de financement pour minimiser le risque engendré par le fait que l’un ou l’autre des partenaires parte.
Et l’autre chose aussi c’est trouver un discours qui soit suffisamment audible auprès des entreprises, auprès d’autres entités, qu'elles soutiennent ce projet. Heureusement la France a sauvé la face parce que maintenant on a la Société Générale parmi les sponsors donc on a au moins un grand acteur français qui est présent. Par contre c’est vrai, ça aurait été sympa d’avoir d’autres acteurs qui utilisent énormément et massivement des logiciels libres qui deviennent partenaires du projet. Finalement c’est un super projet mondial qui a la cabine de pilotage à Paris, c’est assez étonnant de ne pas en trouver d’autres.

Frédéric Couchet : Finalement, si je reviens effectivement à ce que tu disais au début, les grands acteurs du logiciel libre que tu as contactés au début n’ont toujours pas embarqué le projet.

Roberto Di Cosmo : N’ont toujours pas répondu présent !

Frédéric Couchet : Est-ce que ces structures ont donné une raison, une explication ?

Roberto Di Cosmo : C’est toujours compliqué. Quand tu demandes aux gens de donner de l’argent gratuitement tu sais bien que ce n’est pas facile, ils ont toujours d’autres choses. Ils peuvent financer des évènements dans lesquels leur logo apparaît, ils peuvent financer d'autres choses. Mais là on est vraiment en train de construire une infrastructure au service de tous, donc il faut un petit peu de vision pour être capable de voir que l’investissement initial va rapporter beaucoup plus dans l’intérêt commun.
Et là, paradoxalement, à nouveau je suis assez étonné, mais Microsoft et Intel qui étaient quand même mes ennemis historiques il y a vingt ans, qui sont les deux premiers qui ont répondu présent, c’était surprenant. Au moins ils montrent qu’ils ont une vision. Après, la Société Générale, c’est un super partenariat.

Frédéric Couchet : Donc la Société Générale avoir un investissement dans le Libre très fort. Il faut le saluer.

Roberto Di Cosmo : C’est incroyable. Ils sont vraiment en train de changer leur stratégie interne dans laquelle ils mettent en place une stratégie pour le logiciel libre qui est remarquable. Dans ce cadre-là, le fait qu’ils soutiennent le projet ça me semble génial, mais je pense qu’il y a beaucoup plus à faire. Il faudrait que bien d’autres participent. On peut participer en donnant dix euros, mais on peut aussi participer en allant rajouter dans « sauver le code aujourd’hui » les bons pointeurs.

Frédéric Couchet : En proposant des sites sur lesquels il y a un code à archiver.

Roberto Di Cosmo : Des sites. Et on peut aussi, pour des gens qui veulent développer, contribuer, contribuer à construire les briques logicielles qui aident à tracer d’autres plateformes. C’est-à-dire on fait vraiment un effort maintenant pour essayer de documenter le code, rendre facile la participation ; ce n’est pas évident, c’est une grosse infrastructure, mais là aussi la contribution de la communauté est fondamentale pour que le projet prenne son essor à long terme.

Frédéric Couchet : Écoute Roberto, je te remercie. Ça me paraît être une belle conclusion un appel à soutien, en espérant que plein de gens y répondront et, en premier, que les structures qui développent des logiciels libres participent à ce projet. Est-ce que tu souhaites ajouter quelque chose avant qu’on passe à la pause musicale et qu’on change, pas tellement de sujet vu qu’on va parler un peu d’éducation après.

Roberto Di Cosmo : Je veux juste dire ça, je pourrais ajouter un élément : pour moi c’est très émouvant de me retrouver un peu dans la cabine de pilotage de ce projet, avec d’autres, je ne suis pas tout seul, il y a Stefano, il y en a plein d’autres qui aident, parce que c’est un moment magique. L’informatique est une discipline qui m’a toujours passionné et là on est à un point charnière dans cette histoire parce que le logiciel est né il y a une cinquantaine d’années, à peu près 50-60 ans. On a l’occasion unique de pouvoir reconstruire l’histoire de l’informatique, l’histoire de tous les logiciels qui sont arrivés à aujourd’hui et d’avoir l’infrastructure qui va permettre pour le futur de faciliter le développement des logiciels. Je pense qu'on est à point charnière. On a commencé il y a quatre ans à mettre en place ce qu’est Software Heritage, aujourd’hui on montre que c’est possible d’y arriver. Je pense que c’est la chose la plus passionnante qu’il ne m’est jamais arrivé de faire et j’espère, évidemment, que d’autres personnes se passionnent pour cette infrastructure et qu’on comprenne bien que ce n’est pas le projet de Roberto Di Cosmo, ce n’est pas le projet de l’équipe Software Heritage, ce n’est pas le projet d’Inria, ce n’est même pas le projet des sponsors du projet. C’est le projet de tout le monde, de toute une communauté qui trouve qu’il y a quelque chose qui est commun. Donc plus grand sera le nombre de personnes qui s’approprient le projet mieux ce sera dans l’intérêt de tous !

Frédéric Couchet : En tout cas j’espère qu’on a contribué modestement à faire connaître ce projet culturel, industriel, de recherche, d’éducation.

Roberto Di Cosmo : Merci de m’avoir fait venir.

Frédéric Couchet : Le point d’entrée c’est softwareheritage.org. Vous pouvez contribuer, Roberto a proposé pas mal de pistes de contribution et on aura sans doute l’occasion de refaire un point dans quelques mois sur la radio ou ailleurs.

Roberto Di Cosmo : Avec plaisir.

Frédéric Couchet : On va maintenant faire une pause musicale, mais Roberto reste avec nous parce que le sujet de l’éducation l’intéresse évidemment. Le morceau s’appelle Quand nous sommes à la taverne et le groupe s’appelle Ceili Moss. On revient juste après ça.

Pause musicale : Quand nous sommes à la taverne par le groupe Ceili Moss.

Frédéric Couchet : Vous êtes de retour sur l’émission Libre à vous ! sur Cause Commune 93.1 en Île-de-France et partout ailleurs sur causecommune.fm. Nous avons écouté le morceau Quand nous sommes à la taverne, le groupe s’appelle Ceili Moss. J’en profiterais pour préciser qu’évidemment il faut consommer avec modération, surtout quand dans la bouteille il y a de l’alcool.

Nous allons aborder le dernier sujet. Nous allons faire un point rapide sur le projet de loi pour une école de la confiance et plus précisément sur des amendements visant à inscrire la priorité au logiciel libre dans l’Éducation. Normalement au téléphone Jean-François Clair est avec nous. Jean-François est-ce que tu es là ?

Jean-François Clair : Oui. Bonjour Fred.

Frédéric Couchet : Bonjour Jean-François. Jean-François Clair, tu es professeur de mathématiques en collège REP+ à Paris et tu es responsable du groupe numérique au SNES qui est le principal syndicat du secondaire. Je t’ai invité à intervenir avec deux questions de base en fait. Je précise que le SNES est de longue date impliqué, a un engagement de longue date en faveur des logiciels libres dans l’Éducation. Pour quelle raison le SNES a cet engagement à la fois dans l’Éducation et dans sa pratique syndicale ?

Jean-François Clair : C’est essentiellement parce que, contrairement à ce que disent de nombreux médias, le SNES est quand même un syndicat très progressiste et, dès le tournant des années 80, lorsque la micro-informatique est apparue, de très nombreux enseignants, dont les enseignants du SNES, se sont emparés de l’outil informatique. Au fur et à mesure que les années ont passé eh bien ils ont développé une expertise, une connaissance et ils se sont très rapidement rendu compte au moment où Microsoft a pris possession, on va dire, du monde de la micro-informatique, il y avait aussi Apple de son côté, qu’on courait quand même vers une forme de marchandisation de l’école puisque, finalement, on a mis très longtemps à arriver à faire comprendre aux gens qu’il fallait parler de tableur, qu’il fallait parler de traitement de texte, de messagerie électronique et même maintenant, d’ailleurs, de moteur de recherche, plutôt que d’employer les noms qu’on utilise traditionnellement parce que c’est l’outil le plus courant à utiliser, de la même manière que dans les années 50 il y avait frigidaire qui avait remplacé le nom de réfrigérateur.
Ensuite, pourquoi le logiciel libre ? Eh bien tout simplement parce que le logiciel libre correspond à une philosophie, une façon finalement de penser le monde, où on est propriétaire de ce que l’on fait et on le met en commun puisque c’est le principe du Libre, le code est ouvert. C’était pour nous une façon de se dire que c’était peut-être la meilleure manière d’amener à ce que les élèves puissent apprendre, à un moment ou à un autre, l’informatique, en particulier le codage puisque, quand on parle de logiciel libre, il y a quand même cette dimension de codage, et surtout à pouvoir fabriquer par nous-mêmes ou améliorer par nous-mêmes les logiciels de façon à ce qu’ils correspondent à nos besoins pédagogiques. Voilà en gros comment je pourrais présenter les choses.

Frédéric Couchet : D’accord. C’est un engagement de longue date. Je précise que le SNES est membre de l’April. Il y a aussi un autre syndicat qui est membre de l’April qui est le SGEN-CFDT ; il y a aussi une section du Bas-Rhin du SNUIPP-FSU qui est membre de l’April. C’est aussi intéressant en termes de soutien de nos actions parce que c’est relativement récent ces adhésions à l’April, mais ça ne cache pas le fait, au contraire, ça renforce le fait que ces syndicats, depuis de longue date, essayent de promouvoir le logiciel libre à la fois dans leur pratique syndicale et aussi dans l’enseignement.
Aujourd’hui on va parler, assez rapidement parce que la fin de l’émission approche, d’un projet de loi qui a été déposé à l’Assemblée nationale début décembre, qui est le projet de loi pour une école de la confiance. Initialement, le projet de loi pour une école de la confiance ne visait pas spécifiquement le logiciel libre, mais il se trouve que des députés ont déposé des amendements. Sans refaire tout l’historique, notamment en commission et avant que je te pose la deuxième question pour qu’on comprenne, là actuellement le projet de loi est étudié à l’Assemblée nationale en séance publique, donc ça a commencé lundi, ça va se poursuivre tout à l’heure après la séance des questions du gouvernement donc ça a peut-être commencé.
En fait il y a deux types d’amendements qui ont été déposés par des parlementaires pour la séance publique. Il y a premier type d’amendements qui a été déposé par les députés de la France insoumise qui vise à imposer l’usage du logiciel libre dans l’Éducation, je lis l’amendement : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont des logiciels libres » , c’est l’amendement 571.
Et de son côté le groupe communiste, notamment le député Stéphane Peu, a déposé deux amendements qui visent à inscrire la priorité au logiciel libre, ce qui est différent d’imposer l’usage du logiciel libre. Le lis l’amendement 836 de Stéphane Peu : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont en priorité des logiciels libres ». On voit deux approches différentes. Nous, l’approche priorité au logiciel libre c’est celle que l’on défend depuis de nombreuses années, notamment pour gérer la phase de transition nécessaire, parce que évidemment, dans le monde de l’Éducation malheureusement, Microsoft, Apple et autres sont très présents. Quelle est la position du SNES sur ces deux options priorité ou imposition du logiciel libre ?

Jean-François Clair : On ne peut pas imposer. On ne peut absolument pas imposer le logiciel libre pour une bonne et simple raison c’est qu’il existe un certain nombre de choses qui relèvent de codes propriétaires. Je vais prendre un exemple tout simple : pendant des années les collègues ont développé des petites animations Flash qui sont basées sur Adobe Flash, c’est du code complètement propriétaire, ce n’est pas du Libre.

Frédéric Couchet : Ce n’est pas du libre. Flash c’est propriétaire.

Jean-François Clair : C’est mis gratuitement à disposition de, mais ce n’est pas du Libre. Donc on ne peut pas imposer à tout prix le Libre surtout dans une société qui n’est pas encore prête à, comment dire, réfléchir publiquement sur la protection des données, comme on l’a vu l’année dernière avec la loi qui a été votée au moment de l’entrée en vigueur définitive du RGPD [Règlement sur la protection des données]. Pour nous, il s’agit de donner la priorité au logiciel libre. De toute façon il existe aussi un certain nombre de solutions qui ont été développées en code propriétaire et qui n’ont pas leur équivalent dans le monde du Libre.

Frédéric Couchet : Qui n’ont pas encore leur équivalent.

Jean-François Clair : Et qui sont, malgré tout, utilisées par un certain nombre de collègues.

Frédéric Couchet : D’accord. Ça rejoint notre position.
Je répète que les débats ont lieu en ce moment. Pour les personnes qui nous écoutent, la meilleure façon d’agir c’est de contacter des parlementaires, un courriel ou un coup de téléphone, c’est encore plus efficace, avec vos propres arguments : expliquer pourquoi vous considérez que le logiciel libre doit être prioritaire dans l’Éducation ; vous pouvez employer les arguments qui vous parlent et les parlementaires, les députés, sont sensibles à ces questions-là. En termes d’agenda il est probable que ces amendements seront discutés mercredi ou jeudi parce qu’en fait ils sont après l’article 24, donc c’est vraiment en fin de discussion. Contactez vos parlementaires. En commission, des amendements un peu équivalents avaient été proposés et le ministre Jean-Michel Blanquer avait indiqué qu’en fait, déjà dans la loi, il y avait un encouragement à utiliser du logiciel libre dans l’administration. Il faut savoir que dans la loi il y actuellement une phrase, de mémoire « l’offre logicielle tient compte de l’offre logiciel libre. »

Jean-François Clair : Ce n’est pas suffisant !

Frédéric Couchet : Ce n’est pas suffisant, c’est-à-dire qu’on ne fait pas une politique avec des encouragements ou une injonction à tenir compte. On fait une politique avec des priorités, donc entamer dès maintenant une démarche de transition vers les logiciels libres en inscrivant dans la loi la priorité aux logiciels libres et aux formats ouverts dans l’Éducation nationale. Jean-François est-ce que tu veux rajouter quelque chose sur ce point ?

Jean-François Clair : Je ne vois pas trop. En fait, tu as déjà tout dit.

Frédéric Couchet : On avait relativement peu de temps, enfin peu de temps à consacrer, mais c’est qu’en fait l’émission se termine bientôt et il y avait plusieurs sujets, mais il était important de parler de ce sujet-là. Je suis personnellement convaincu que l’inscription dans la loi de la priorité au logiciel libre n’est qu’une question de temps. Il y a déjà eu de nombreux débats. Pour les personnes qui avaient suivi le projet de loi République numérique en 2016, à l’Assemblée nationale en séance publique, il y avait eu un long débat, près de 45 minutes ce qui est beaucoup sur un seul amendement, et on voyait qu’il n’y avait pas l’opposition classique qu’on connaissait, mais au contraire il y avait vraiment des liens qui se faisaient entre députés de différents bords. Le gouvernement de l’époque s’y était opposé. On espère que ce nouveau gouvernement ne s’y opposera pas, parce que, par rapport aux débats en commission, nous on a apporté des arguments justement sur la nécessité de la priorité. Ce qui est intéressant c’est qu’il y a deux types d’amendements qui sont proposés ce qui va permettre d’avoir un échange intéressant en séance. C’est sans doute plutôt mercredi ou jeudi et j’encourage chacun et chacune à contacter des députés. Sur le site de l’April, april.org, vous avez une page qui récapitule le dossier, qui précise les amendements et qui vous donne des pistes pour contacter des parlementaires.
Écoute Jean-François je te remercie de ton intervention et je pense qu’on aura l’occasion prochainement dans l’émission de faire un sujet beaucoup plus général sur le logiciel libre, l’Éducation, les formats ouverts, les données personnelles des élèves et des enseignants et enseignantes. Je te remercie Jean-François et à bientôt.

Jean-François Clair : Merci beaucoup Fred, à une prochaine fois.

Frédéric Couchet : L’émission va bientôt se terminer je vais juste faire une petite annonce qui est en lien, en fait, avec ce sujet-là, tout simplement.
Ce week-end à Beauvais auront lieu les PrimTux Days donc les journées Primtux. PrimTux est un système d’exploitation complet et libre qui propose un environnement de travail qui est adapté aux cycles de l’école primaire. On est toujours dans le domaine de l’école. C’est à Beauvais du samedi 16 février à 10 heures au dimanche 17 février à 17 heures. Vous retrouvez les informations détaillées sur le site de l’Agenda du Libre, donc agendadulibre.org et évidemment, sur le site de l’Agenda du Libre, vous trouvez tous les évènements du Libre qui se passent à Paris et ailleurs, les soirées de contribution au Libre, on a parlé tout à l’heure de contribuer à Softfware Heritage. On peut contribuer aux projets libres directement, les différents apéros, l’occasion de rencontrer des gens.

Notre émission se termine. Vous allez bientôt avoir le plaisir d’entendre notre générique de fin qui est Wesh Tone de Realaze.Vous retrouvez sur notre site web april.org toutes les références utiles que nous avons citées aujourd’hui. La page sera mise à jour s’il y a des références qu’on a oubliées. Vous retrouvez aussi sur le site de la radio causesommune.fm. N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu mais aussi des points d’amélioration.
On va se retrouver le 19 février donc mardi prochain à 15 heures 30. Nous parlerons du Pacte de la Transition avec Aliette Lacroix, nous ferons un point sur la directive droit d’auteur avec Anne Catherine Lorrain qui travaille au Parlement européen pour le groupe des Verts et notre sujet principal, là c’est aussi un grand plaisir, j’aurais le plaisir d’échanger avec Stéphane Bortzmeyer dans le cadre du livre qu’il vient de publier Cyberstructure. L'Internet, un espace politique.

Je vous souhaite de passer une belle journée et on se retrouve la semaine prochaine. D’ici là portez-vous bien.

Libre à vous ! Radio Cause Commune - Transcription de l'émission du 12 février 2019


Frédéric Couchet

Titre : Émission Libre à vous ! diffusée mardi 12 février 2019 sur radio Cause Commune
Intervenants : Roberto Di Cosmo, Software Heritage - Jean-François Clair, SNES - Jean-Christophe Becquet, April - Frédéric Couchet, April
Lieu : Radio Cause Commune
Date : 12 février 2019
Durée : 1 h 30 min
Écouter ou télécharger le podcast
Page des références utiles concernant cette émission
Licence de la transcription : Verbatim
Illustration : Bannière radio Libre à vous - Antoine Bardelli ; licence CC BY-SA 2.0 FR ou supérieure ; licence Art Libre 1.3 ou supérieure et General Free Documentation License V1.3 ou supérieure. Logo radio Cause Commune, avec l'accord de Olivier Grieco
NB : transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l'April, qui ne sera en aucun cas tenue responsable de leurs propos.

logo cause commune

Transcription

Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Couchet : Bonjour à toutes. Bonjour à tous. Vous êtes sur la radio Cause Commune 93.1 en Île-de-France et partout ailleurs sur le site causecommune.fm. La radio dispose d’un webchat, donc utilisez votre navigateur web, connectez-vous sur le site de la radio, cliquez sur « chat » et rejoignez-nous sur le salon web.
Nous sommes mardi 12 février 2019, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre. Je m’appelle Frédéric Couchet, je suis le délégué général de l’April.
Le site web de l’April est april.org, a, p, r, i, l point org et vous y trouvez déjà une page consacrée à cette émission avec tous les liens et références utiles, les détails sur les pauses musicales et toute autre information utile en complément de l’émission. Vous pouvez également nous faire des retours pour nous indiquer ce qui vous a plu mais aussi des points d’amélioration. Je vous souhaite une excellente écoute.

Nous allons passer maintenant au programme de cette émission.
Nous allons commencer dans quelques secondes par une chronique de Jean-Christophe Becquet, président de l’April, intitulée « Pépites libres ». Normalement Jean-Christophe est avec nous au téléphone, bonjour Jean-Christophe.

Jean-Christophe Becquet : Bonjour Fred. Bonjour à tous.

Frédéric Couchet : On se retrouve d’ici quelques secondes.
D’ici une quinzaine de minutes notre sujet principal portera sur le projet Software Heritage avec Roberto Di Cosmo qui est avec nous en studio. Bonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Et en fin d’émission, nous parlerons du projet de loi pour une école de la confiance et des amendements proposant d’inscrire dans la loi la priorité au logiciel libre dans l’Éducation.

Je salue à la réalisation de l’émission, pour sa première, notre camarade Patrick Creusot sous la surveillance et l’aide d’Étienne Gonnu, de Charlotte Boulanger et d’une autre personne dont je ne connais pas le prénom, j’en suis désolé.

Tout de suite nous allons passer au premier sujet avec la seconde édition de la chronique de Jean-Christophe Becquet, président de l’April, chronique qui s’appelle « Pépites Libres ». Dans cette chronique, Jean-Christophe nous présente une ressource sous une licence libre – texte, image, vidéo ou base de données – sélectionnée pour son intérêt artistique, pédagogique, insolite, utile et les auteurs de ces pépites ont choisi de mettre l’accent sur les libertés accordées à leur public.
La chronique du jour, Jean-Christophe, porte sur le dessin animé de Nina Paley, Copier n’est pas voler.

Jean-Christophe Becquet : Oui. Dans ma chronique du mois de janvier je vous invitais à découvrir la conférence Un Faible Degré d’Originalité d’Antoine Defoort dont la vidéo est disponible sous licence libre. Parmi ses sources d’inspiration j’évoquais Nina Paley et c’est sur elle que j’aimerais revenir aujourd’hui.
Nina Paley est une artiste américaine auteur de bandes dessinées et de dessins animés.
J’ai donc choisi de vous parler d’un dessin animé de Nina Paley Copier n’est pas voler ou Copying Is Not Theft en anglais. Il s’agit d’une vidéo très courte, elle dure à peine une minute. De manière ludique et en chansons, Nina Paley dénonce l’amalgame entre le vol et la copie.
En effet, le vol concerne des objets matériels alors que la copie s’applique aux idées et aux œuvres de l’esprit qui, elles, sont intangibles et immatérielles. Et c’est cette escroquerie intellectuelle que dénoncent les petits personnages de Nina Paley.
Dans le code pénal français, le vol est défini comme la soustraction frauduleuse de la chose d’autrui ; c’est l’article 321.1. Donc le vol est une soustraction, c’est-à-dire qu’il prive sa victime de l’objet dérobé, alors que pour la copie c’est complètement différent : copier c’est multiplier. Je sais que le logiciel libre préserve vos libertés et je vous le dis. Alors nous sommes plusieurs à le savoir sans que je sois privé de ma connaissance initiale. On voit bien qu’il n’y a pas soustraction ! Les idées que je partage à travers cette chronique sont multipliées par le nombre d’auditeurs. En faisant le choix d’une licence libre pour ses émissions, Cause Commune encourage cette multiplication.

Les héros du dessin animé de Nina Paley s’amusent à comparer le vol et la copie d’un vélo. En effet, dans leur monde immatériel, il est possible très facilement de faire des copies : un simple coup de crayon, deux clics de souris, et chacun peut enfourcher une copie du vélo. Ils échappent à ce qu’on appelle la rivalité des biens matériels, c’est-à-dire le fait que chacun prenne une copie d’un objet nécessite une quantité importante de ressources et d’énergie.
À l’inverse, depuis l’avènement d’Internet, la copie est grandement facilitée et son coût est devenu marginal. C’est un problème pour les défenseurs de l’ancien système basé sur des rentes indexées sur le nombre de copies. C’est une formidable opportunité pour l’humanité. De plus en plus d’auteurs choisissent de partager leur travail sous licence libre.
Aujourd’hui j’ai envie de dire : copions et multiplions toutes ces pépites libres !

Frédéric Couchet : Merci Jean-Christophe. Donc ce dessin animé de Nina Paley dure à peu près une minute. Les références sont sur le site de l’April avec la version originale qui est en anglais, une version française ; il y aussi un lien vers des versions modifiées parce que dès le départ, Nina Paley qui a diffusé ce dessin animé sous licence, de mémoire, CC BY SA, Creative Commons Partage à l’identique, a encouragé les personnes à faire des modifications, à mettre leurs propres musiques. Donc il y a un certain nombre de versions modifiées avec des musiques assez sympas.
Ces petits personnages rappelleront les cartoons qu’on connaît avec notamment les petits personnages qui ont quatre doigts au lieu de cinq doigts. Ce dessin animé date de quelle époque ? Est-ce que tu te souviens ?

Jean-Christophe Becquet : C’est relativement ancien, en fait, ça date de 2010.Ça a dix ans et effectivement, comme tu l’as dit, parce que Nina Paley a choisi une licence libre, ce dessin animé a fait l’objet d’un grand nombre de reprises, d’adaptations, de traductions d’abord. On le trouve dans un grand nombre de langues. On a mis le lien vers la version française, mais il y aussi des versions en espagnol, en allemand. Il y a des adaptations avec d’autres styles de musique et on peut aussi télécharger les paroles, la partition. L’intérêt de la démarche de Nina Paley c’est que toutes les briques de sa création sont libres et qu’elle encourage effectivement la création et la réutilisation. Du coup, en dix ans d’ancienneté de cette vidéo, il y en a eu un grand nombre.

Frédéric Couchet : Et ce n’est pas la première animation que Nina Paley a libérée parce qu’en 2006 ou 2008, peut-être, elle avait distribué un dessin animé beaucoup plus long, son animation Sita Sings the Blues sous licence Creative Commons Partage à l’identique et, en plus, elle avait explicitement interdit la pause de verrous numériques, les DRM qu’on a déjà évoqués dans une précédente émission. Donc Nina Paley est une personne qui milite vraiment, on va dire depuis 2008-2010 au moins, pour un mouvement de ce qu’on peut appeler la culture libre. Sur son site ninapaley.com on peut retrouver ses différentes productions en plus, effectivement, de ce dessin animé Copier n’est pas voler dont tu nous as parlé. Quel est le lien avec le logiciel libre ?

Jean-Christophe Becquet : En fait c’est que ces licences libres qui sont aujourd’hui utilisées pour les œuvres de Nina Paley, donc les licences Creative Commons, sont les héritières des licences du logiciel libre. C’est-à-dire que le Libre est né avec le logiciel libre, Richard Stallman en 1984 et, en fait, avec le temps, d’autres personnes ont eu envie de libérer d’autres ressources que des logiciels et se sont mises à réfléchir à des licences adaptées à des ressources non-logicielles. Donc ça a donné la licence Art libre, par exemple, qu’on utilise à l’April, les licences Creative Commons dont certaines sont considérées comme libres et d’autres licences qui s’inspirent des libertés du logiciel libre, mais pour les transposer à d’autres œuvres comme des textes, des images, des livres ou des films et dessins animés dans le cas de Nina Paley.

Frédéric Couchet : Et le principe de non-rivalité que tu as expliqué et qui est explicité dans cette vidéo est évidemment valable pour toute œuvre de l’esprit qui est une ressource non exclusive et non rivale, c’est-à-dire que tout le monde a un libre accès à cette ressource, non exclusif, et il n’est pas possible d’exclure quelqu’un de l’usage d’une telle ressource sauf, évidemment, à recourir soit à des principes juridiques, soit à des principes techniques comme les mesures techniques qui, des fois, enfin souvent, sont également protégées par des principes juridiques.

Jean-Christophe Becquet : Oui. Tout à fait. C’est ce que j’ai appelé les tenants de l’ancien système qui, eux, utilisent des verrous juridiques et techniques pour lutter contre cette facilité de copie des ressources qui pose bien des problèmes à leur modèle économique archaïque.

Frédéric Couchet : Exactement. Et pour finir, je te laisserai le mot de conclusion, ça explique aussi pourquoi nous refusons le terme de « propriété intellectuelle », pour deux raisons principales. Déjà le terme « propriété intellectuelle » laisserait supposer qu’on peut, en fait, réfléchir aux œuvres de l’esprit comme on peut réfléchir à des objets matériels alors que ce n’est pas le cas, ce n’est pas la même propriété notamment ce que tu as expliqué, la non-rivalité. Et deuxième chose, c’est que le terme de « propriété intellectuelle » dans le droit englobe des domaines très différents qui vont du droit d’auteur aux brevets et à plein d’autres choses qui sont très différentes dans leurs principes. C’est pour ça que nous on préfère parler spécifiquement d’un droit particulier, par exemple le droit d’auteur et que, dans son ensemble, le terme « propriété intellectuelle » ne doit pas être utilisé parce qu’il pousse à réfléchir sur les œuvres de l’esprit comme on réfléchirait sur des œuvres matérielles.
Est-ce que tu as une phrase de conclusion ? Est-ce que tu veux rajouter quelque chose cher Jean-Christophe ?

Jean-Christophe Becquet : Oui. Juste dire que Nina Paley a fait, comme tu l’as dit, d’autres dessins animés, notamment un autre dessin animé de sensibilisation au Libre qui montre à quel point toute œuvre créée s’inspire des œuvres existantes. Je vous invite à découvrir ça et puis, dans l’attente, eh bien je me mets en recherche d’une nouvelle ressource libre pour la chronique « Pépites libres » du mois prochain. Un grand merci et bonne écoute pour la suite de l’émission.

Frédéric Couchet : Merci Jean-Christophe et on se retrouve le mois prochain.

Nous allons passer par une petite pause musicale qui va être relativement courte vu qu’elle dure 59 secondes. Évidemment, c’est la bande son du dessin animé de Nina Paley Copier n’est pas voler.

Pause musicale : Copier n’est pas voler, bande son du dessin animé de Nina Paley.

Frédéric Couchet : Vous êtes de retour sur Cause commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Nous venons d’écouter la bande son du dessin animé de Nina Paley Copier n’est pas voler dont les références sont sur le site de l’April, april.org, vous avez une page qui est consacrée à l’émission.

Nous allons passer à notre sujet principal avec notre invité du jour et c’est un grand plaisir de recevoir Roberto Di Cosmo pour parler de l’initiative Software Heritage, archive mondiale du logiciel. Donc rebonjour Roberto.

Roberto Di Cosmo : Bonjour Fred.

Frédéric Couchet : Roberto tu es italien, installé en France, professeur d'informatique ; tu es un libriste depuis très longtemps.

Roberto Di Cosmo : Depuis plus de 20 ans.

Frédéric Couchet : Je pense qu’on se connaît depuis une petite vingtaine d’années. Tu as été rendu célèbre notamment par un pamphlet en 1998 qui s’appelle Piège dans le cyberespace et ensuite par un livre coécrit avec Dominique Nora la même année, donc 1998, qui s’appelait Le hold-up planétaire : la face cachée de Microsoft, sur les problèmes posés par le monopole de Microsoft et aussi ses méthodes pour contrer toute concurrence et, en premier, le logiciel libre.
Depuis septembre 2010 tu es directeur du laboratoire IRILL, Initiative pour la Recherche et l’Innovation sur le Logiciel Libre et, depuis septembre 2016, tu es détaché auprès de l’Inria, l’Institut national de recherche en informatique et en automatique, et tu es directeur de l’initiative Software Heritage depuis 2016.

Roberto Di Cosmo : Oui. Tout à fait.

Frédéric Couchet : Est-ce que cette présentation te paraît correcte ou est-ce que tu veux ajouter quelque chose ?

Roberto Di Cosmo : On pourrait ajuster quelque petite chose par ci ou par là…

Frédéric Couchet : Ajuste !

Roberto Di Cosmo : Mais globalement on y est.

Frédéric Couchet : D’accord. Avant de te laisser la parole et avant d’échanger sur le projet Software Heritage, en préparant l’émission évidemment je me suis renseigné et j’ai trouvé qu’en fait, le plus simple, c’était de prendre des extraits de l’annonce officielle de l’Inria en 2016 qui annonce « Software Heritage, archive mondiale du logiciel ». Annoncée le jeudi 30 juin 2016 l’ouverture au public du projet Software Heritage : « Ce projet a pour objectif de collecter, organiser, préserver et rendre accessible à tous et à toutes le code source de tous les logiciels disponibles. Un enjeu de portée mondiale. » Antoine Petit, PDG de l’Inria, précise : « Les logiciels sont aujourd’hui au cœur de toutes les activités humaines, de la médecine aux loisirs, des communications à l’agriculture. » Je poursuis la présentation du communiqué de l’Inria : « En construisant une archive universelle et pérenne du logiciel, Software Heritage vise à mettre en place une infrastructure essentielle au service de la société, de la science et de l’industrie. Software Heritage vise à construire à la fois une moderne bibliothèque d’Alexandrie du logiciel, le référentiel unique du code source et un grand instrument de recherche pour l’informatique. Le projet va permettre de préserver et diffuser la connaissance aujourd’hui encodée dans le logiciel et augmentera notre capacité d’accéder à l’ensemble de l’information numérique. La base s’appuiera notamment sur une infrastructure distribuée — on y reviendra — de manière à garantir la robustesse et la disponibilité des données. » Lors de l’annonce, deux premiers partenaires internationaux s’étaient déjà engagés à soutenir le projet et l’aider à grandir, Microsoft, dont on vient de parler, ainsi qu’une institution publique au service de la recherche scientifique, le DANS de la Royale Académie des Pays-Bas.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Une fois cette introduction faite, j’ai envie de te poser la première question pour entrer un peu dans les détails, quels problèmes cherche à résoudre l’initiative Software Heritage lancée en 2016 par l’Inria ?

Roberto Di Cosmo : Tout d’abord merci de m’avoir invité, c’est vraiment un plaisir de passer échanger un peu sur ce sujet, de prendre un peu de temps, un peu de calme. Comme tu sais, Fred, ça fait longtemps qu’on s’occupe de logiciels, de logiciels libres, de codes, d’informatique en général donc on a vu pas mal d’évolutions de notre société. Aujourd’hui on est tous d’accord que le logiciel est quelque chose d’essentiel. Par contre, il faut dire que les personnes qui ne sont pas très techniques donc qui ont plutôt l’habitude de voir les logiciels juste comme des outils : tu prends ton téléphone, tu appuies sur une icône, ça lance une petite application, ça fait quelque chose ; on peut envoyer des bisous à quelqu’un qu’on aime, on peut acheter quelque chose, on peut regarder une vidéo, c’est très bien. Par contre, on a tendance à ne pas savoir, à oublier que derrière ces logiciels qui sont exécutables, qu’on utilise comme des outils, en vérité il y a tout un travail humain de conception super important. Ces logiciels ne tombent pas du ciel, ils sont écrits, c’est vraiment le terme qu’on utilise quand on développe – les développeurs écrivent du logiciel –, on les écrit dans des langages de programmation en produisant ce qu’on appelle le code source. C’est le code source du logiciel qui contient vraiment la connaissance qui est nécessaire pour faire fonctionner ce logiciel-là.

Frédéric Couchet : Tu peux expliquer peut-être juste ce qu’est le code source aux personnes qui nous écoutent.

Roberto Di Cosmo : On peut prendre l’analogie habituelle qu’utilise aussi Richard [Stallman] à un moment donné, l’histoire de la recette de cuisine. Par exemple vous avez un gâteau que vous aimez beaucoup, ça c’est un peu l’exécutable, vous coupez des tranches et vous mangez, c’est super. Par contre, s’il faut le refaire, c’est un peu compliqué si on ne vous a pas expliqué comment on l’a fait. En général on s’échange des recettes de cuisine dans lesquelles on dit dans quel ordre on a mis quel ingrédient, pendant combien de temps, etc. C’est un peu la même idée. Dans la musique aussi : vous pouvez écouter de la musique qui est fantastique mais pour refaire cette musique-là normalement on a besoin d’une partition et ce n’est pas facile de reconstruire la partition juste en écoutant la musique telle qu’elle est.
Il faut savoir que dans le cas des logiciels c’est un peu la même histoire, sauf que c’est énormément plus compliqué. À partir d’un binaire – un binaire c’est ce qu’on utilise pour les exécutables, les applications qu’on voit – reconstruire ce qu’on appelle le code source qui est la représentation du logiciel, qui est préféré pour un développeur pour le modifier, c’est vraiment la définition formelle, c’est énormément difficile en partie aussi parce que, très souvent, dans ce logiciel on a plein de commentaires ou d’annotations qui sont faites pour les êtres humains, pour les relire, et qui disparaissent.

Frédéric Couchet : Qui sont supprimés dans la phase de cuisson, quelque part.

Roberto Di Cosmo : Voilà ! Dans la phase de cuisson ça disparaît, on ne les retrouve pas dans l’exécutable qui tourne sur la machine donc on a complètement perdu de l’information.
C’était un peu le préalable. Effectivement on parle souvent de logiciels, mais on oublie que ces logiciels sont fabriqués à travers une forme qui est ce code source, qui est vraiment précieuse, qui est une forme d’écriture nouvelle, technique, une sorte de littérature technique du 21e siècle qu’on est en train de mettre en place.

Frédéric Couchet : Ça ressemble quand même à un langage quelque part naturel parce qu’il y a une grammaire, il y a un vocabulaire et en fait, n’importe quelle personne, y passant du temps, peut apprendre à écrire du code ou à le comprendre.

Roberto Di Cosmo : Absolument. Tu fais très bien de le dire. Il ne faut pas non plus se sentir rebuté par le code source. C’est la même chose que dans la littérature. On utilise tous le français, moi avec un peu d’accent, mais normalement on utilise tous la langue française. Pourtant il y a des textes qui sont très faciles à lire, il y a des textes qui sont beaucoup plus compliqués donc il faut passer du temps pour comprendre ce que ça veut dire.
Dans le cas des programmes c’est un peu similaire : il y a des programmes qui sont très simples à aborder et des programmes qui sont plus complexes, qui nécessitent plus de temps pour comprendre des notions plus avancées. C’est quand même à la portée, pas de tout le monde, mais en y mettant un peu d’énergie on arrive à comprendre ce qui se passe derrière. Et c’est vraiment une production humaine.

Frédéric Couchet : Donc ce premier point et je te laisse continuer, c’est l’importance du code source quand on parle de logiciels et donc ça sera l’un des points central de Software Heritage. Je te laisse poursuivre.

Roberto Di Cosmo : Absolument. Les auditeurs ne peuvent pas le voir, mais moi j’ai un peu la barbe blanche, je commence à avoir un certain âge, n’empêche que comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger ; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles. Il y a énormément d’initiatives pour archiver des informations numériques, par exemple l’Internet Archive qui est une initiative magnifique.

Frédéric Couchet : C’est archive.org ou archive.org.

Roberto Di Cosmo : C’est parti il y a plus de 20 ans cette archive. Elle archive le Web, les pages web qu’on connaît. Il y a d’autres initiatives qui essaient d’archiver des vidéos, qui essaient même d’archiver des exécutables de logiciels, Internet Archive fait ça aussi, un peu. Donc on archive tout ce que vous voulez dans le monde numérique sauf, et c’était ça qui était surprenant, le point de départ du projet, sauf le code source qui est quand même la brique fondamentale de la révolution numérique dans laquelle on vit aujourd’hui. C’était étonnant ! Quand on s’est aperçu de ça et d’ailleurs on s’en est aperçu de façon un peu…

Frédéric Couchet : En fait, peut-être que les gens pensaient que comme le code source était dupliqué sur plein de machines qu’il ne pourrait jamais disparaître. Peut-être que les gens pensaient ça !

Roberto Di Cosmo : Tu sais, le même argument on peut le faire pour la vidéo, pour les images, etc. Pourquoi les archiver si elles sont bien dupliquées sur l’ordinateur de quelqu’un ?

Frédéric Couchet : Oui, tout à fait.

Roberto Di Cosmo : On a tendance à confondre plusieurs activités qui sont très importantes. D’ailleurs j’ouvre une petite parenthèse mais qui est importante en termes de terminologique : quand on développe du logiciel, souvent aujourd’hui quand on fait du logiciel libre on travaille de façon collaborative, en réalité on a besoin d’infrastructures qui font trois choses différentes.
Il y a un premier type d’infrastructures qui sont ce qu’on appelle souvent les forges logicielles. Ce sont des endroits dans lesquels une communauté de développeurs travaille de façon collaborative pour mettre au point un logiciel ou le faire évoluer. On travaille ensemble, on commente, on décide, on trouve les erreurs, on les corrige, etc. C’est très dynamique. Ça ce sont les plateformes de développement.
À un certain moment on peut dire : tiens, cette version-là du logiciel est quand même la version stable, celle qu’on veut vraiment distribuer, que tout le monde puisse la réutiliser facilement, etc. À ce moment-là on a envie de le diffuser, de le partager, de le rendre plus facilement accessible à tout le monde et là on passe dans une deuxième catégorie de plateformes qui sont normalement des plateformes de distribution.
Et après il y a un troisième type de plateformes qui n’existent pas, qui sont des plateformes d’archivage. C’est quoi une archive ? C’est un endroit dans lequel quand on a versé un objet dedans, on a déposé un objet dedans, on repasse six mois, deux ans, trois ans, dix ans, cent ans après, si on est tous vivants, et on retrouve le même objet.
Ce sont trois missions très différentes.

Frédéric Couchet : Je vais juste préciser par rapport aux personnes qui écoutent régulièrement l’émission qu’on a parlé des distributions GNU/Linux il y a une semaine ou quinze jours, je ne sais plus, notamment avec Nicolas Dandrimont qui travaille avec toi sur Software Heritage et qu’on a parlé plusieurs fois des forges logicielles, alors pas d’un point de vue technique, mais on en a parlé dans le cadre du projet de directive européenne sur le droit d’auteur qui peut mettre justement en danger ces forges logicielles. Vous retrouvez ces références sur le site de l’April, podcast et transcriptions. Je te laisse poursuivre Roberto.

Roberto Di Cosmo : Parfait, merci.
Donc là, finalement ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles ; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café : où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.
Fred, par exemple quand on a commencé ça, parce que tu as bien fait de mentionner le 30 juin 2016, c’est le moment où on a annoncé le projet de façon publique…

Frédéric Couchet : Mais le projet avait commencé avant.

Roberto Di Cosmo : Le projet avait commencé bien avant !

Frédéric Couchet : Quand ça ?

Roberto Di Cosmo : Les premières idées ont commencé à circuler dans l’été 2014.

Frédéric Couchet : Donc deux ans avant en fait.

Roberto Di Cosmo : Deux ans avant.

Frédéric Couchet : Quand il y a l’annonce de l’Inria vous avez déjà commencé à travailler depuis deux ans, vous avez déjà commencé à archiver des logiciels. Tu te souviens au moment de l’annonce de l’Inria combien il y en avait déjà ?

Roberto Di Cosmo : Je pense qu’on avait déjà archivé peut-être un milliard de fichiers sources différents.

Frédéric Couchet : Un milliard de fichiers sources. D’accord !

Roberto Di Cosmo : Ce qui est quand même remarquable ; ce sont des fichiers sources tous différents, uniques. Il faut savoir que justement dans cette période pendant laquelle on était en mode un peu sous-marin, parce qu'on ne voulait pas… Je déteste vendre du slideware, vendre de la fumée.

Frédéric Couchet : Du slideware. En français on traduit ça comment ?

Roberto Di Cosmo : Je ne sais pas comment traduire ça.

Frédéric Couchet : C’est-à-dire uniquement des diaporamas avec des listes à points.

Roberto Di Cosmo : Des diaporamas avec quelques idées et après on ne sait pas comment c’est fait. Je préfère arriver avec un prototype, montrer des choses qui fonctionnent. On avait mis en place une petite équipe, commencé à construire un premier prototype pour donner de la crédibilité à ce qu’on faisait. C’était une démarche pas évidente. Mais tu vois, dans cette période-là où on était en souterrain, c’est-à-dire entre 2014 et 2016, il y a eu deux événements qui ont montré clairement pourquoi c’était important d’avoir une archive. Parce que, comme tu dis, plein de gens se disent pourquoi faire une archive ? Après tout il y a plein de copies à droite, à gauche, il n’y a pas de problème.

Frédéric Couchet : Eh bien oui, c’est sur Internet !

Roberto Di Cosmo : C’est sur Internet, on le trouve, etc. Il faut savoir qu’au mois de mars 2015, c’est assez intéressant, il y avait deux plateformes de développement très populaires à l’époque, une qui s’appelait Gitorious et l’autre qui était Google Code, pas exactement la même quantité d’argent derrière, les deux étaient très populaires. Sur Gitorious il y avait à peu près 120 000 projets de développement logiciel, sur Google Code il y en avait un million et demi. Au mois de mars 2015, il y a deux annonces : d’un côté l’annonce de Gitorious qui se fait racheter par une autre entreprise qui est GitLab. Comme il y a ce rachat-là, ils décident de fermer l’ancienne forge Gitorious, ils ne font pas de transfert de données, ils ont juste donné une annonce.

Frédéric Couchet : Ils ferment sans laisser accès, c’est ça ?

Roberto Di Cosmo : Ils ferment sans laisser l’accès et ils disent tout simplement aux gens : « Écoutez on ne va quand même pas maintenir deux plateformes ; vous avez trois semaines pour tout transférer et après on ferme. » Alors ça a duré un peu plus de trois semaines, heureusement, parce que les gens ont un peu protesté, mais vous voyez un peu le topo. Maintenant effectivement c’est fermé. Si vous allez regarder là-dedans il n’y a plus rien et, en parallèle, Google avait annoncé que bon, bref ! Il y avait d’autres solutions, que Google Code n’était plus forcément justifié à maintenir. Ça c’est leur décision, c’est leur droit de faire ce qu’ils veulent, c’était mis à disposition de façon gratuite, gratuite mais pas libre, justement, et là c’était un milliard et demi de projets qui étaient mis en danger sauf que Google est un peu plus seigneurial donc il a donné un an.

Frédéric Couchet : Donc ils ont laissé plus de temps ! Un an.

Roberto Di Cosmo : Un an, pas trois semaines et ils ont quand même gardé une sorte de version d’archive dans un coin.
Ça c’est arrivé un peu à point nommé parce que ça montrait que le message qu’on envoyait, c’est-à-dire que c’est important de construire une archive — qu’est-ce que c’est une archive ? C’est vraiment une plateforme dont la finalité est l’archivage et pas autre chose — que c’était nécessaire. Après ces deux évènements c’est devenu relativement clair pour tout le monde que c’était nécessaire d’aller dans cette direction-là.

La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.
Par exemple j’ai plein d’amis qui sont dans le monde de la physique : un de mes copains, parti aux États-Unis il y a très longtemps, s’occupe d’un gros projet de télescope spatial. Je suis très admiratif de mes collègues en physique qui sont capables de mobiliser des ressources très conséquentes, là on parle de milliards, de dizaines de milliards d’euros pour chercher à comprendre l’origine de l’univers, regarder les étoiles, regarder l’infiniment petit. Ça c’est super important, je n’ai rien contre, au contraire, je suis très admiratif du fait qu’ils arrivent à le faire. Par contre nous, dans le monde de l’informatique qui est pourtant le moteur de la transformation numérique, jusque-là on a été un peu incapables de fédérer le même type d’effort pour avoir une plateforme commune qu’on puisse, de façon mutualisée, réutiliser pour travailler ensemble, pour améliorer la qualité des logiciels que nous développons.
Évidemment chaque grosse entreprise a son propre système interne. Dans le monde associatif chacun essaie de mettre en place son propre outil technique à tel ou tel autre endroit. Le rêve serait d’arriver à faire quelque chose comme le CERN pour la recherche nucléaire ou les grands réseaux de télescopes spatiaux pour explorer les galaxies. Eh bien nous on a besoin d’une infrastructure pour explorer la galaxie du logiciel. Aujourd’hui ça n’existe pas.
Donc c’était vraiment ces trois constats : pas de catalogue, pas d’archive, pas d’infrastructure de recherche, la situation n’était pas idéale, donc il fallait essayer de faire quelque chose. En mettant en place le projet Software Heritage on essaye, très humblement parce qu’on n’est pas Google, on n’a pas de dizaines de milliards comme certains de mes copains qui travaillent ailleurs, mais on essaye très humblement de construire une réponse à ces trois besoins et de le faire en essayant de mettre de notre côté tous les atouts pour minimiser les risques que le projet échoue, c’est-à-dire pour maximiser les chances de succès.

Frédéric Couchet : Tu dis « on ». Le projet a été annoncé par l’Inria et, comme je l’ai dit tout à l’heure, tu es détaché à l’Inria depuis quelques années.

Roberto Di Cosmo : Tout à fait.

Frédéric Couchet : Qui est ce « on » ? C’est-à-dire qui a lancé ce projet en dehors de l’Inria s’il y en a d’autres ? Qui sont les partenaires ? Comment est financé ce projet ? Tu as parlé d’une équipe. Je suppose que tu as une équipe, je ne sais pas, de 500 personnes pour travailler avec toi.

Roberto Di Cosmo : J’aimerais bien ! Dans le monde de l’informatique, comme tu le sais bien, très souvent la révolution est faite par un tout petit nombre, on grandit plus tard.

Frédéric Couchet : C’est quoi l’équipe Software Heritage ? Essaye de nous expliquer qui est ce « on ».

Roberto Di Cosmo : Je vais vous expliquer. Tu as mentionné l’IRILL. Effectivement dans cette structure qu’on avait mise en place en 2010 pour essayer de tisser des liens entre des communautés de développeurs, des entreprises, des chercheurs qui s’intéressent au problème nouveau, scientifique, qui vient quand on fait du développement de logiciel libre, dans l’été 2014, autour de la machine à café, tu sais qu’on dit souvent que les développeurs sont des machines qui convertissent du café en code, mais des fois on le convertit en idées plutôt qu’en code directement.

Frédéric Couchet : Ou des pizzas en code, des fois.

Roberto Di Cosmo : Ou des pizzas ou des boissons socialisantes quelconques, ça dépend, il n’est pas nécessaire de prendre de la caféine tout le temps. Là on discutait de plein de choses. À partir d’autres idées, d’autres projets de recherche qu’on avait en tête, on s’est aperçu qu’il y avait ce problème et on a passé plusieurs mois à discuter à plusieurs. Moi à l’origine, il y avait Guillaume Rousseau, il y avait Stefano Zacchiroli, il y avait d’autres personnes qui se sont greffées dessus petit à petit et on a identifié le problème, on a écrit des notes d’opportunité, on pourrait dire, qui faisaient un bilan de la situation. Parce que, même si le problème existe, ça ne veut pas dire que nous sommes capables de le résoudre, n’est-ce pas ! La question est de se dire : le problème est là, est-ce que vraiment on a les reins solides pour essayer d’aller dans cette direction-là et comment on peut faire, qu’est-ce qui existe ? Sur la base de ces notes-là, on a pensé qu’il y avait une opportunité de faire quelque chose de bien avec un peu de ressources initiales.
Avec ça j’étais allé voir le directeur de l’Inria à l’époque qui était Antoine Petit, et là il faut dire qu'effectivement, ça fait des fois partie de la chance, qu'il a été convaincu de l’opportunité de cette mission donc il a pris la décision de donner cette impulsion initiale.
Tu vois quand on dit « on », il y a des gens qui ont des idées, mais des idées sans les ressources pour les implémenter, il y a plein dans les tiroirs !

Frédéric Couchet : Le soutien du directeur a été un grand atout évidemment.

Roberto Di Cosmo : Un grand atout, mais aussi toute l’institution. L’Inria est une institution qui à l’origine avait été capable, il y a 22 ans, de soutenir le lancement du W3C, le World Wide Web Consortium qui est le consortium mondial qui maintient les standards du Web et qui a permis au Web de devenir ce qu’il est devenu maintenant. Donc ils ont déjà montré leur capacité à soutenir un projet sur le long terme et de façon partenariale, pas en disant : c’est à moi, c’est à l’Inria.

Frédéric Couchet : Pas tout seul.

Roberto Di Cosmo : Mais en disant : OK on travaille à plusieurs. Ça c’était un peu le début. Là on a commencé à avoir un peu de ressources pour travailler. Quand je dis un peu de ressources c’était juste un ingénieur, Antoine Dumont qu’on avait recruté comme premier ingénieur. Il y a Nicolas Dandrimont, qui était dans l'émission la semaine passée, qui nous a rejoints quelques mois après et là on a commencé un petit peu à construire. Mais la mission, dès le départ, était de ne pas être tout seuls, de ne pas être juste Inria. Il fallait avoir d’autres partenaires autour. Donc là c’était un travail énorme, si tu regardes l’historique on n’est pas encore public, on est en train de parler 2015, avant l’annonce en 2016 et là on essaye de contacter plein d’entités : la Free Software Foundation, on a contacté l’Open Source Initiative, on a contacté Creative Commons, on a contacté des sociétés savantes, françaises, européennes, internationales ; on a contacté des fondations comme la fondation Linux, la fondation Eclipse, plein d’autres instituts comme ça pour leur dire ce qu’on allait faire, pour savoir si elles allaient nous soutenir.

Frédéric Couchet : Si elles voulaient soutenir, participer.

Roberto Di Cosmo : Là on a obtenu un soutien qui était important mais qui était un soutien moral, pas financier, il faut quand même payer le développeur à la fin du mois, ça ne suffit pas d’être un soutien moral, mais c’est très important.

Frédéric Couchet : En tout cas ces structures qui sont des structures importantes dans le monde du logiciel libre ont considéré que ce projet était fondamental, donc qu’il fallait le soutenir au moins moralement, déjà.

Roberto Di Cosmo : Exactement. Donc là si tu vas sur le site de Software Heritage aujourd’hui, wwww.softwareheritage.org, tu vas regarder dans la partie soutiens, il y a des témoignages. Il y a une cinquantaine de lettres officielles de tout un tas d’entités diverses et variées qui disent pourquoi elles considèrent que le sujet est important et pourquoi le projet est structurant pour elles.
Là on avait déjà commencé à avoir des premiers contacts avec l’Unesco, parce que c’est quand même une mission universelle, c’était bien de travailler avec eux. Mais ça ne suffisait pas, il fallait chercher des partenaires qui partagent la charge financière d’un tel projet avec Inria, dont la vocation est de lancer le projet mais pas, quand même, de le maintenir pendant 50 ans en payant tout, tout seul. Ce n’est pas, comment dire, ce n’est pas soutenable et ce n’est pas souhaitable non plus si tu veux minimiser les risques d’échec.

Frédéric Couchet : Pour la pérennité du projet il faut qu’il y ait plusieurs acteurs, plusieurs partenaires.

Roberto Di Cosmo : Il faut plusieurs partenaires autour de la table. Et c’est là que ça devient paradoxal, parce qu’on avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.

Frédéric Couchet : Donc tu vas renouer des liens avec Microsoft à cette époque-là !

Roberto Di Cosmo : Et ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction et j’ai découvert qu’il y a, je ne sais pas si je peux dire ça, mais je pense que ça doit être facile avec toi.

Frédéric Couchet : Nous sommes en direct, je te préviens !

Roberto Di Cosmo : Je ne vais pas le dire, il y avait un nombre très conséquent d’ingénieurs à Microsoft, déjà en 2015, qui travaillaient en faisant seulement du logiciel libre. Après c’est devenu public. Dans l’été 2016, Microsoft a été l’un des premiers contributeurs à des projets logiciel libre sous GitHub à la grande surprise de tout le monde, c’est devant tout le monde ! Qu’est-ce qui se passe ? Tout le monde a le droit de changer d’idée, n’est-ce pas, de temps à l’autre !

Frédéric Couchet : Au moins partiellement on va dire !

Roberto Di Cosmo : Je vais y venir. Au moins sur la partie technique, le développement technique, stratégie industrielle à long terme, ils ont vraiment complètement changé d’attitude, complètement. Après il reste tout un tas d’autres choses sur lesquelles on pourrait débattre longuement. Restons sur la partie positive. On a retrouvé un point d’intérêt commun, donc ils ont été les premiers acteurs industriels à répondre présent.
Par contre le deuxième acteur qu’on avait mentionné, l’Archive nationale de l’Académie des sciences hollandaise, c’est une institution publique donc c’était tout à fait naturel de la retrouver à nos côtés parce que leur mission c’est d’archiver les données de la recherche en Hollande ; ils ont énormément de demandes de la part de chercheurs qui disent : « Bon, très bien, archiver des données c’est très bien, mais qu’est-ce que je fais avec mes logiciels ? Où est-ce que je mets mes codes sources ? » Ils avaient des demandes comme ça, ils ne savaient pas exactement comment les traiter. Quand ils ont découvert ce qu’on faisait dans Software Heritage, ils ont sauté immédiatement sur l’occasion en disant : il faut qu’on travaille ensemble. Maintenant on travaille ensemble dans un projet européen, par exemple. C’est naturel de trouver ces deux-là, mais ça ne suffisait pas, il fallait élargir. Si vous regardez sur le site aujourd’hui il y a un certain nombre de sponsors qui sont arrivés : on s'est retrouvé Intel aussi qui est devenu sponsor ; on a retrouvé GitHub, évidemment.

Frédéric Couchet : Une archive d’hébergement de code.

Roberto Di Cosmo : GitHub qui est une plateforme de développement de code.

Frédéric Couchet : Et une société aux Pays-bas, si je me souviens bien.

Roberto Di Cosmo : GitHub est à San Francisco.

Frédéric Couchet : San Francisco d’accord.

Roberto Di Cosmo : Et a été racheté par ailleurs, c’est le monde à l’envers ; ça a été racheté par Microsoft cet été pour 7 milliards de dollars, c’est assez intéressant.

Frédéric Couchet : Ah ! Tu parlais de GitHub, excuse-moi.

Roberto Di Cosmo : GitHub, oui, tout à fait.

Frédéric Couchet : D’accord. Je croyais que c’était GiLab, excuse-moi.

Roberto Di Cosmo : Non, GitLab c’est autre chose. On a des contacts avec GitLab aussi, on a archivé aussi GitLab. Donc on a élargi petit à petit disons l’ensemble des partenaires, des sponsors, qui sont tous des mécènes. C’est-à-dire que ce qu’ils font ce sont des donations, il n’y a pas de contreparties. Ils font vraiment des financements qui servent à faire grandir le projet parce qu’ils trouvent que c’est une infrastructure…

Frédéric Couchet : Donc c’est de la contribution financière ou est-ce que c’est aussi de la contribution humaine avec la mise à disposition de personnel ?

Roberto Di Cosmo : Pour l’instant c’est essentiellement de la contribution financière, il n’y a pas de mise à disposition de personnel.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : La mise à disposition de personnel c’est compliqué.

Frédéric Couchet : Oui, mais ça aurait pu être.

Roberto Di Cosmo : Ça aurait pu être, mais ça commence à arriver : on commence à avoir des contributions qui viennent de certaines entreprises, mais pas vraiment du personnel qui est mis chez nous.

Frédéric Couchet : Donc ça permet de financer une équipe de combien de personnes aujourd’hui, pour Software Heritage ?

Roberto Di Cosmo : Aujourd’hui si tu regardes sur le site de Software Heritage tu trouveras, je ne veux pas dire de bêtises, mais je pense que tu vas trouver probablement 14 ou 15 photos.

Frédéric Couchet : D’accord.

Roberto Di Cosmo : Peut-être un peu plus parce que sur le site web on a mis aussi le conseil scientifique. Donc ça fait quand même une dizaine de personnes qui travaillent sur le projet à temps plein. On a un peu grandi depuis l’époque où on était deux-trois.

Frédéric Couchet : La machine à café s’est un peu agrandie.

Roberto Di Cosmo : La machine à café est toujours là, elle s’est un peu agrandie, et on est accueilli dans de très bonnes conditions chez Inria pour pouvoir travailler sur le projet

Frédéric Couchet : Donc l’équipe est physiquement, toutes les personnes sont ici à Paris ?

Roberto Di Cosmo : Physiquement ici à Paris, dans les locaux d’Inria, pour l’instant accueillis là, ce n’est pas forcément la position définitive. Ce qu’il faut quand même remarquer c’est que les dix à temps plein qui sont là maintenant – c’est seulement maintenant qu’on est arrivés à dix, on s’est agrandis petit à petit – on fait quand même un travail qui est énorme. On peut penser que dix c'est beaucoup, mais en réalité on est tout petits par rapport à la mission monstre qu’on s’est donnée. Effectivement il y a tout un tas de questions à se poser : quelle garantie d’y arriver à long terme ? Quelle stratégie mettre en place pour pouvoir travailler sur tout ça ? Je dois dire quand même que la première étape est d’avoir toutes les personnes qui sont dans l’équipe qui sont extrêmement motivées pour travailler là-dedans. Nicolas qui était là la semaine passée est un ancien acteur du monde du logiciel libre, Stefano Zacchiroli était leader du projet Debian pendant trois ans,

Frédéric Couchet : Leader du projet Debian.

Roberto Di Cosmo : C’est un chercheur magnifique. Il y a d’autres personnes qui sont motivées. Des fois il n’y a pas que l’argent qui fonctionne.

Frédéric Couchet : Tout à fait.

Roberto Di Cosmo : Des fois il y a une vraie motivation et c’est ça qui aide beaucoup.

Frédéric Couchet : C’est une bonne conclusion pour cette première partie d’émission. On va faire une pause amicale. Nous allons écouter Mountains par Cud Eastbound et on revient juste après ça.

Pause musicale : Mountains par Cud Eastbound.

Frédéric Couchet : Vous êtes de retour sur Cause Commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Vous écoutez l’émission Libre à vous !, l’émission pour comprendre et agir avec l’April l’association de promotion et de défense du logiciel libre. Nous venons d’écouter Mountains par Cud Eastbound qui est disponible en licence Creative Commons Partage à l’identique. J’en profite pour rappeler que toutes les musiques que nous diffusons sont librement partageables, y compris pour des usages commerciaux. Vous retrouvez la référence sur le site de l’April donc april.org.

Je suis toujours en compagnie de Roberto Di Cosmo, professeur d’informatique et directeur de l’initiative Software Heritage. Nous allons poursuivre la discussion. Nous avons parlé, avant la pause musicale, un petit peu d’où venait le projet, les raisons pour lancer ce projet, où ce projet en est, où cette initiative en est aujourd’hui avec une équipe certes réduite mais de gens très motivés et de libristes de longue date, on a cité plusieurs noms. Maintenant on va parler un petit peu du fonctionnement de Software Heritage du point de vue technique et puis du futur.
Peut-être première question, Roberto, Software Heritage est une archive, tout à l’heure tu disais que le but c’était de garantir la pérennité de ces codes sources, patrimoine culturel, économique, industriel et scientifique. Cette archive est hébergée sur les internets, comme on dit, quelque part. Est-ce qu’elle est sur plusieurs sites ? Comment techniquement ça fonctionne ?

Roberto Di Cosmo : Effectivement c’est une très bonne question. Quand on réfléchit à un projet comme Software Heritage on se place dans une logique de long terme. La question de comment maintenir l’information à long terme est cruciale. Il y avait essentiellement deux choix qu’on pouvait faire au début. Un premier choix aurait été de dire : on construit un super datacenter, un centre de données ultra-sécurisé, complètement caché.

Frédéric Couchet : Une solution à la française quoi !

Roberto Di Cosmo : Pas à la française. On prend les meilleurs ingénieurs du monde, on cache tout et on dit à tout le monde : « C’est secret il n’y a rien à voir, on est les meilleurs du monde, on ne sera jamais piratés, on ne perdra jamais de données, on ne fera jamais d’erreurs, etc. » À nouveau, comme j’ai un peu de poils blancs dans la barbe, je sais très bien qu'en général ce type d’approche marche peu. Donc j’ai dit : je ne suis pas capable de le faire fonctionner comme ça. Donc on a préféré prendre une stratégie différente qui est de dire : on sait qu’il y aura des erreurs, on sait qu’il y aura des pertes de données, on sait qu’il y aura des problèmes. Il peut y avoir un centre de données qui brûle, il peut y avoir un tremblement de terre, il peut y avoir un pirate qui rentre dedans qui détruit des données, on peut avoir des problèmes, c’est inévitable, ça fait partie de la vie donc il faut structurer le projet de telle façon qu’il résiste à ce type d’erreurs, qui soit résilient sur le long terme. Qu’est-ce que ça veut dire ?
La base de notre stratégie est :
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs ;
deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc par exemple aujourd’hui, Software Heritage dispose de trois copies de l’archive : deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.

Frédéric Couchet : Donc ce sont les mêmes données.

Roberto Di Cosmo : Ce sont les mêmes données mais sur trois endroits différents.

Frédéric Couchet : Qui sont sur trois infrastructures physiques différentes.

Roberto Di Cosmo : Sur trois infrastructures différentes, mais les infrastructures, toutes les trois, sont sous notre contrôle, sous le contrôle de l’organisation Software Heritage aujourd’hui. Le fait que ça soit à trois endroits physiquement différents et pas forcément la même technologie — si tu vas sur Azure, même si c’est une base Debian, en réalité la techno qui est derrière (les machines, etc.) c’est différent de chez nous —, c’est un peu rassurant. Mais imagine qu’on devienne tous fous, les dix de l’équipe décident de tout détruire et de tout brûler, une sorte de Samson « Que je meure avec les Philistins », comme on dit, on pourrait le faire. Donc il faut quand même se protéger de ce dommage-là. Donc là on a besoin de ce qu’on appelle des miroirs. Qu’est-ce que c’est un miroir ? Un miroir, pour nous, c’est une copie mais qui est sous le contrôle administratif et technique de quelqu’un d’autre. Sous une entité qui n’est pas Software Heritage, mais avec qui, évidemment, on a passé des accords pour les questions d’éthique, juridiques, etc., mais qui n’est pas nous.
C’était dans notre plan depuis le départ et en décembre passé, il y a quelques semaines, on a annoncé qu’on a signé le premier accord pour la création d’un miroir. Ça sera en Suède, ça sera porté par une société qui s’appelle FOSSID. Ce n’est pas encore fait, la partie technique est à développer, mais au moins l’accord est là, et on met la première pierre de ce réseau de miroirs qui va nous protéger de la perte de données.
C’est très intéressant d’en parler aujourd’hui. Tu as mentionné la réforme du droit d’auteur. Il y a plusieurs dangers qui guettent un projet comme le nôtre. Il y a des dangers techniques, par exemple tu as cassé un disque, tu as perdu des choses, tu t’es trompé dans le logiciel qui a corrompu toutes les données, ce sont des choses qui peuvent arriver, mais il y a des risques, d’une certaine façon, plus subtiles, plus néfastes qui sont des risques juridiques. Il se peut qu’un miroir, une copie de l’archive, se trouve dans un pays ou dans une zone géographique dans lesquels, à un moment donné, sont passés des textes de loi qui rendent difficile voire impossible, voire illégal, de faire ce travail d’archivage. Et c’est effectivement ce qui est en train d’arriver avec cette fameuse réforme du droit d’auteur, un article 13 qui oblige toutes les plateformes qui partagent du contenu couvert par le droit d’auteur de mettre en place des filtres avec des autorisations, il y a un droit qui est très contraint, on ne va pas rentrer dans ça, ce n’est pas le sujet aujourd’hui.

Frédéric Couchet : Je précise qu’on en parlera la semaine prochaine avec Anne-Catherine Lorrain qui travaille pour le groupe des Verts au Parlement européen parce que cette semaine il y a une négociation interministérielle au niveau européen qui se déroule donc on en saura plus à la fin de la semaine et la semaine prochaine on fera un point là-dessus.

Roberto Di Cosmo : Absolument. Donc effectivement ce débat-là nous a pris, côté Software Heritage, pas mal de temps parce qu’on le voyait comme un danger : pour le travail qu’on est en train de faire c’est un vrai danger ! Donc le fait d’avoir des miroirs dans d’autres juridictions ça protège aussi de ces risques juridiques ; il n’y a pas seulement les risques techniques. Cela dit, ça c’est l’objectif, il faut y arriver. Ça prend un peu de temps d’y arriver, je vous signale.

Frédéric Couchet : Ça c’est l’objectif. Donc le principe technique, on va le répéter pour que les personnes comprennent bien : il y a trois archives sous le contrôle du projet Software Heritage : deux sont sur une infrastructure Inria, une sur une infrastructure Azure Microsoft et, en plus de cela, il y a un principe de miroirs sur lesquels Software Heritage n’a pas d’accès on va dire direct de contrôle.

Roberto Di Cosmo : En écriture.

Frédéric Couchet : À part un contrat et le premier projet de miroir c’est FOSSID. FOSSID ça veut dire free open source software ?

Roberto Di Cosmo : Non. C’est une entreprise qui est en Suède qui fait de l’analyse de code pour des questions de licences.

Frédéric Couchet : D’accord. Donc ils sont intéressés. Donc on voit l’intérêt du projet : ce sont des gens qui sont intéressés aussi par rapport à l’analyse de code qui est un point très important. On pourrait imaginer que des universités soient intéressées pour les étudiants, pour mettre à disposition, parce qu’on sait très bien – on a appris l’informatique tous les deux, toi peut-être un petit peu avant moi, comme tu le dis assez, avec ta barbe un peu blanche – que souvent la meilleure façon d’apprendre eh bien c’est de regarder ce qui a été fait par d’autres personnes. Donc des universités pourraient être intéressées par cette masse de code disponible.
D’ailleurs j’ai une question avant de poursuivre sur la partie archive miroir, est-ce que ce ne sont que des logiciels libres ? Est-de que ce ne sont que des codes sources de logiciels libres qui sont hébergés dans le projet ou est-ce que ça peut être des codes sources d’autres logiciels ?

Roberto Di Cosmo : C’est une très bonne question. Je vais même généraliser la question. La question est de savoir comment on décide de ce qui mérite d’être archivé dans l’archive de Software Heritage. Effectivement la position qu’on a prise dans Software Heritage c’est quelque chose qui fait un peu dresser les cheveux sur la tête quand j’en parle avec des gens qui sont habitués à de l’archivage traditionnel, que ça soit dans des bibliothèques ou ailleurs. Nous on a pris une position très particulière : on essaye d’archiver tous les codes sources qui sont publiquement disponibles, c’est-à-dire auxquels on peut avoir accès, donc on ne filtre pas spécialement sur le fait qu’ils soient des beaux logiciels ou des logiciels pas très beaux, ou que la licence permette explicitement la redistribution donc qui soient vraiment des logiciels libres, ou que ça soit juste des codes qui ont été mis à disposition dont la licence n’est pas super claire, etc.

Frédéric Couchet : Mais elle permet au moins de faire la copie du code.

Roberto Di Cosmo : Au moins de faire la copie. L’idéal ça serait à terme d’arriver à avoir vraiment tous les logiciels, même les anciens, parce si tu veux les logiciels qui sont propriétaires aujourd’hui, tant qu’on ne change pas encore une fois le droit d’auteur.

Frédéric Couchet : Qu'on n’étend pas le droit d’auteur.

Roberto Di Cosmo : Au-delà de ce qui est raisonnable.

Frédéric Couchet : Au-delà de ce qui est raisonnable, ce qui est déjà le cas, nous sommes d’accord.

Roberto Di Cosmo : Normalement au bout de 70 ans ils deviennent du domaine public.

Frédéric Couchet : Après la mort de l’auteur.

Roberto Di Cosmo : Oui. En réalité pour les logiciels industriels c’est à partir de leur mise sur le commerce.

Frédéric Couchet : Ah pour les logiciels industriels, d’accord.

Roberto Di Cosmo : Oui, les logiciels industriels. Et effectivement après la mort de l’auteur c’est un peu compliqué, mais l’idée ça serait mieux de les avoir, question de pouvoir les mettre à disposition plus tard. Là j’aurais plein d’anecdotes à raconter, mais je ne vais pas les raconter maintenant.

Frédéric Couchet : Oui, parce que sinon on n’aura pas le temps dans l’émission. Ce sera pour une deuxième émission. Donc c’est tout le code, en fait, qui est disponible sur Internet.

Roberto Di Cosmo : Voilà. On essaye de le collecter et maintenant on a ouvert plein de pistes c’est-à-dire techniquement, je vais donner quelques éléments techniques supplémentaires. Pour les grandes plateformes de développement comme GitHub qui est très populaire aujourd’hui ou GitLab ou même la forge Inria ou même Framagit qui est la forge mise à disposition par Framasoft ici en France, ce qu’on fait on met en place un mécanisme de moissonnage automatique. C’est-à-dire qu’on va collecter tous les logiciels qui sont disponibles là-dessus et on les intègre automatiquement. Par contre on a aussi rajouté des pistes pour pouvoir, de façon explicite, déposer des logiciels, par exemple des logiciels développés dans la cadre de la recherche académique, pouvoir les déposer. Là on a fait un partenariat avec un portail national qui s’appelle HAL.

Frédéric Couchet : HAL, H, A, L ?

Roberto Di Cosmo : H, A, L, c’est une sorte de portail open access pour l’accès ouvert aux publications et maintenant il y a un mécanisme pour déposer aussi du code scientifique dedans. Et plus récemment on a ouvert un mécanisme qu’on appelle, tu me passeras l’anglais, save code now.

Frédéric Couchet : Sauvegardez votre code maintenant.

Roberto Di Cosmo : Maintenant. Donc c’est possible de nous indiquer qu’il y a certains endroits dans lesquels il y a du code important et, en nous indiquant cette piste-là, nous, après, on le rajoute aux moissonneurs.

Frédéric Couchet : Oui, parce qu’évidemment Software Heritage ne peut pas avoir connaissance de tout le code qui existe sur Internet, ça paraît compliqué. J’ai une question sur les plateformes d’hébergement de logiciels que tu as citées, est-ce que ces plateformes donnent un accès complet, exhaustif, à l’ensemble des codes qui sont hébergés ? C'est-à-dire est-ce que Software Heritage a une certitude, en fait, de pouvoir récupérer tout le code que ces plateformes hébergent, d’un point de vue technique ?

Roberto Di Cosmo : D’un point de vue technique la réponse est oui. Disons que techniquement c’est compliqué, on ne va pas rentrer dans les détails, mais oui on peut y arriver. Par exemple tout ce qui est disponible publiquement sur GitLab ou sur GitHub, etc., techniquement on pourrait être capables d’obtenir absolument tout et d’être à jour même très rapidement. Après il ne faut pas oublier qu’on est une petite équipe, qu’on a commencé avec des ressources relativement limitées ; si on avait des milliards on ferait beaucoup plus. On n’a pas des milliards !

Frédéric Couchet : Ma question n’est pas forcément sur l’équipe.

Roberto Di Cosmo : Est-ce qu’il y a un filtre qui nous a empêche de l’obtenir ?

Frédéric Couchet : Est-ce que la plateforme d’hébergement propose déjà une liste exhaustive de ces projets en disant là c’est facile de récupérer ?

Roberto Di Cosmo : Les plateformes plus récentes comme GitLab ou GitHub fournissent effectivement une interface accessible pour les machines, ce qu’on appelle des API, c’est-à-dire une interface de programmation qui permet de lister les contenus. Donc on a au moins accès à la liste des contenus qui sont disponibles et après, si on peut suivre les évènements, on peut télécharger les choses de façon plutôt raisonnable. Les anciennes plateformes comme SourceForge qui existait déjà il y a 20 ans et qui sont un peu…

Frédéric Couchet : Sur le déclin !

Roberto Di Cosmo : Pas sur le déclin, il y encore des logiciels très importants qui sont développés dedans.

Frédéric Couchet : Oui, il y en a plein !

Roberto Di Cosmo : Par contre ils n’ont même pas ça, ils n’ont même pas une interface qui permet de lister les contenus. Donc là c’est assez compliqué, il faut aller travailler avec eux pour obtenir les choses, on ne l’a pas encore fait, ça fait partie de la roadmap et c’est beaucoup d’efforts pour pas grand-chose comme résultat.

Frédéric Couchet : Ça pourrait être un effort de SourceForge ou des personnes qui maintiennent SourceForge de proposer ça.

Roberto Di Cosmo : Exactement. De proposer cette interface.

Frédéric Couchet : Effectivement, peut-être que quand ils ont créé ce genre de plateforme ils ne sont pas mis en tête : tiens il y a un Roberto Di Cosmo qui arrivera un jour pour pouvoir archiver tout ce qu’il y a dessus, donc ils n’ont pas proposé cette simple information sur l’ensemble des projets qui sont disponibles sur la plateforme. Donc c’est à ces structures-là de faire ce travail.

Roberto Di Cosmo : Là, au passage, j’en profite pour dire merci à l’ADULLACT, on a travaillé avec elle.

Frédéric Couchet : L’association des développeurs et utilisateurs de logiciels libres dans l’administration et les collectivités territoriales françaises.

Roberto Di Cosmo : Très bien. Je vois que tu te rappelles l’acronyme, c’est super, et qui a aidé à développer une sorte de plugin, un greffon qui a été rajouté sur la technologie des forges qui s’appelle FusionForge qui est une évolution de SourceForge et qui fait en sorte que maintenant il est possible de moissonner les contenus qui sont une instance de FusionForge, en particulier celle de l’ADULLACT a mis en place ça. Donc ça fait partie de ce travail collaboratif dans lequel je vais essayer juste d’arriver à dire ça clairement : la mission qu’on s’est donnée est quand même énorme, herculéenne et on n’y arrivera jamais si on le fait tout seuls. Donc toute la stratégie du projet est de rendre facile et possible à tout le monde de participer.

Frédéric Couchet : Tu parles de l’ADULLACT. Le 8 janvier on recevait Laurent Joubert et Mathilde Bras de la DINSIC, la Direction interministérielle du numérique et de la société de l’information et de la communication, j’ai un petit doute sur l’acronyme [Direction interministérielle du numérique et du système d’information et de communication], en tout cas on va dire la direction informatique de l’État et Laurent Joubert avait annoncé qu’il y avait un partenariat qui se créait entre la DINSIC et Software Heritage pour que Software Heritage archive les codes sources publiés par l’administration.

Roberto Di Cosmo : Absolument. Ça c’est l’objectif, ce qu’on fera. Si tu veux dans l’État français, normalement, il y a une obligation d’archivage des données publiques en particulier, donc il y a des Archives nationales ; maintenant quand on passe dans le monde numérique, il faut avoir des archives numériques. Il y a tout un tas d’initiatives pour archiver plein d'informations numériques de l’État français. Pour ce qui concerne les codes sources des logiciels l’idée que tout ça soit archivé dans Software Heritage qui est une plateforme qui n’archive pas seulement les codes sources de l’administration mais aussi les codes sources de l’administration française ; pas la peine d’en faire 42 ! L’idée c’est de les remettre ensemble et de travailler en bonne entente avec les services de l’État pour faire en sorte que les différentes plateformes de développement qui sont un peu éparpillées dans les différents ministères, dans différents endroits, soient toutes tracées, indexées, pour permettre l’archivage systématique dans Software Heritage.

Frédéric Couchet : Tout à l’heure tu as dit que quand le projet a été lancé en 2016 il y avait, si je me souviens bien, un milliard de codes sources ou de lignes.

Roberto Di Cosmo : Un milliard de fichiers.

Frédéric Couchet : Un milliard de fichiers. Aujourd’hui est-ce qu’il y a des statistiques sur le nombre de projets qui sont archivés par mois pour donner un ordre d’idée de la progression ?

Roberto Di Cosmo : Bien sûr. Nous on est très logiciel libre, très transparents, très ouverts. Si tu vas sur le site web qui est www.softwareheritage.org/archive, donc tu vas dans l’archive, tu trouveras des jolis graphiques qui sont à jour, qui montrent que maintenant on doit être à 88 ou 89 millions de projets indexés. À peu près 5 milliards et demi de fichiers sources uniques. Il y a de jolis graphiques qui te montrent comment ça évolue dans le temps.

Frédéric Couchet : Comme on a Internet et que j’ai un ordinateur devant moi, effectivement les fichiers sources c’est 5 milliards, 6, visiblement ; ça représente 23 millions de personnes différentes, 88 millions de projets. On regarde et on voit un certain nombre de plateformes qui sont automatiquement archivées, tout à l’heure tu as cité GitLab, GitHub, il y a aussi Framagit que tu as cité, Debian, le projet GNU et puis d’autres projets. C’est sur softwareheritage.org/archive. Donc c’est une grosse progression.

Roberto Di Cosmo : Absolument.

Frédéric Couchet : Et je suppose que ça a un impact, tout à l’heure on parlait des données, sur la taille de l’archive. D’ailleurs j’ai une question peut-être un peu technique, le temps passe : est-ce que vous avez pour la conservation de ces fichiers qui viennent pour beaucoup, en fait, de plateformes d’hébergement qui utilisent Git, est-ce que vous êtes partis sur la même architecture technique ou est-ce que vous avez développé quelque chose de spécifique pour Software Heritage ?

Roberto Di Cosmo : C’est une très bonne question. L’idée, à nouveau, c’est qu’il faut se placer dans une logique de long terme. L’idée c’est d’essayer de ne pas réinventer des choses qui existent. Si tu inventes encore des standards différents c’est un peu compliqué, mais, par contre, essayer de réutiliser les meilleurs qui existent à chaque moment donné.
En particulier sur l’architecture technique des modèles de données qu’il y a derrière l’archive de Software Heritage c’est essentiellement le même modèle de données que tu as derrière Git mais avec une grosse différence c’est qu’on utilise ce même modèle de données pour tous les projets mélangés. Effectivement, peu importe d’où vient un fichier source, un répertoire, un commit, une release, etc., on mélange tout dans un énorme graphe dans lequel s’il y a un bout de projet qui a déjà été utilisé dans un endroit et on le trouve à un deuxième endroit on ne le copie pas, on ne le duplique pas, on garde juste la trace que c’est le même objet.

Frédéric Couchet : Ce qui permet de sauvegarder de l’espace disque.

Roberto Di Cosmo : Ça permet de réduire le coût, parce qu’un espace disque c’est monstrueux. Tout ce que vous voyez maintenant sur l’archive fait un peu plus de 200 téraoctets de données et quelques téraoctets de base de données pour le graphe central, ce qui est microscopique par rapport à ce que ça archive.

Frédéric Couchet : Par rapport à ce que ça archive.

Roberto Di Cosmo : Parce qu’il y a énormément de duplications dans le travail de développement d'un logiciel. On réutilise énormément des fichiers qui existent déjà dans d’autres projets, on fait ce qu’on appelle des forks, etc. Donc nous on a un modèle d’archivage qui est structuré exactement pour passer à l’échelle de ce mécanisme de fortes duplications diverses et variées.

Frédéric Couchet : Un fork c’est qu’on part d’un projet et on va en faire une version modifiée donc évidemment la version modifiée va avoir une bonne partie du code original parce que c’est le principe et c’est aussi l’un des principes du logiciel libre. Je précise juste que Git dont on parle depuis tout à l’heure c’est, en gros, un logiciel de gestion de versions décentralisé qui est très utilisé, qui date peut-être d’une quinzaine ou d’une vingtaine d’années maintenant.

Roberto Di Cosmo : Je ne veux pas dire de bêtise, je pense que c’est 2005-2006, c’est Torvalds qui avait fait ça.

Frédéric Couchet : Et c’est initialement développé par Linus Torvalds qui est aussi le développeur original du noyau Linux et qui est toujours, je crois, à la tête, du développement du noyau. Donc 200 téraoctets, ça peut paraître beaucoup, mais en fait, par rapport à ce que ça sauvegarde, c’est…

Roberto Di Cosmo : Mais attention quand même ça grandit, ça va grandir.

Frédéric Couchet : Oui, ça s’agrandit. Même si on peut espérer peut-être qu’une bonne partie des codes existants ont déjà été archivés. Le temps passe vite à la radio et le sujet est passionnant, mais tout à l’heure tu parlais des problèmes juridiques dont, notamment, la directive droit d’auteur et c’est vrai que dans le passé on a dû aussi passer pas mal de temps ensemble et avec d’autres à se battre pour nos libertés que ce soit contre les brevets logiciels ou d'autres trucs dans le genre. Quels sont les deux grands défis, on va dire technique et juridique peut-être, s’il y en a encore, pour Software Heritage aujourd’hui ?

Roberto Di Cosmo : Sur la partie technique effectivement, je prends une petite parenthèse mais ça vaut vraiment la peine. Au moment où on a lancé le projet on se disait bon, bref ! On construit cette infrastructure, on utilise un peu la technologie qu’on connaît aujourd’hui, on essaye d’utiliser la meilleure, bien sûr, avec des gens motivés et de très bon niveau, et après on utilisera tout ça pour faire de la recherche sur ces informations. Après on s’est aperçus, petit à petit, que l’infrastructure même que nous sommes en train de construire est un projet de recherche lui-même parce qu’il y a tout un tas de défis techniques qu’on n’imaginait pas tout à fait au moment où on a commencé. Finalement c’est une architecture distribuée dans laquelle on stocke une énorme quantité de fichiers qui sont relativement petits, on ne sait pas exactement ce qui est nécessairement standard dans le monde industriel d’aujourd’hui. Il y a des questions de réplication, de sûreté, il y a énormément d’indexation dans ces graphes très grands, comment construire des moteurs de recherche là-dessus, donc effectivement il y a énormément de défis ; il y en a plein. En même temps c’est un problème amusant parce que ça permet de faire venir, j’espère, d’attirer un certain nombre d’équipes de recherche qui cherchent des problèmes intéressants. Là il y en a plein ! Il faut qu’elles viennent.

Frédéric Couchet : C’est une base de données à gérer qui est monstrueuse, donc c’est intéressant.

Roberto Di Cosmo : Il y a plein de problèmes. Il faut juste savoir, et tu le sais bien, que dans le monde académique, on prend du temps. Entre le moment où tu intéresses quelqu’un au problème, le moment où les gens commencent à y travailler il se passe déjà un an, peut-être deux, et le moment où il y a un résultat que tu puisses industrialiser, mettre dedans, ça peut mettre quatre ou cinq ans. Mais ce n’est pas grave parce que nous on est dans une logique de long terme. L’idée c’est de créer vraiment une activité de recherche autour qui améliore l’infrastructure petit à petit. Après je ne veux pas rentrer trop dans la partie super technique.

Frédéric Couchet : Non. Et la partie juridique, à part le projet de directive droit d’auteur qui est un gros problème juridique mais dont on espère que ça sera terminé bientôt, est-ce qu’il y a d’autres défis juridiques ?

Roberto Di Cosmo : Je ne sais pas si j’appellerais ça vraiment des défis juridiques, c’est plutôt organisationnel. Je résume un peu cette idée. On se place dans une logique de long terme : comment construire quelque chose qui est vraiment résistant aux risques sur le long terme ? On l’avait déjà dit avant, on veut avoir plusieurs partenaires, on ne veut pas construire une entreprise qui peut-être rachetée ou peut faire faillite, on ne veut pas dépendre d’un seul acteur qui peut changer d’avis même s’il est très riche, comme c’était le cas de Google quand il a fermé Google Code, ce n’est pas juste une question d’argent, c’est aussi une question de stratégie.

Frédéric Couchet : Ça permet de rappeler que même si ce sont des grandes structures comme Google ou autre des fois ça peut fermer du jour au lendemain. On peut le rappeler à pas mal de personnes dont la vie informatique dépend de ces géants.

Roberto Di Cosmo : Oui ! C’est juste une décision qui est prise par une gestion. Ils ont sûrement leurs raisons. Il est important d’avoir une structure qui contrôle le projet, qui pilote le projet avec exactement la mission de faire seulement ce qui est dit dans le projet c’est-à-dire collecter, préserver, rendre disponibles les codes sources de toute la planète.
On réfléchit maintenant à la mise en place d’une stratégie pour devenir pérenne. Au début c’était un projet hébergé par Inria qui continue de nous soutenir. Maintenant on est dans une phase de transition, on commence à construire une infrastructure juridique qui est une fondation, en vérité, et à terme on veut arriver sur l’équivalent d’une structure de fondation dans laquelle on pourra avoir justement plusieurs partenaires qui travaillent ensemble avec une dotation pérenne pour faire en sorte que le projet soit viable à très long terme, que moi je puisse partir à la retraite, le plus vite possible, en allant pêcher tranquillement sans avoir à courir après les sponsors toutes les deux minutes !
Donc là c’est construire vraiment la bonne structure, ça prend effectivement du temps. Mettre en place la bonne organisation pour que ça fonctionne bien, ça prend du temps.
Une autre partie de la stratégie qui est très intéressante : quand on construit une infrastructure comme Software Heritage on ne s’intéresse pas seulement au monde de l’industrie, on ne s’intéresse pas seulement au monde de la recherche, on ne s’intéresse pas seulement au monde de la culture, on ne s’intéresse pas seulement au monde associatif, aux administrations publiques, en réalité on construit une infrastructure qui est au service de tous. Donc c’est vraiment important d’arriver à amener autour de la table — comme tu disais le cas de la DINSIC est très important — des administrations publiques, d’amener autour de la table des entreprises, d’amener autour de la table des entités comme l’Unesco qui sont intéressées à préserver le patrimoine logiciel, mais aussi énormément d’autres contributeurs. Par exemple l’année passée on a fait l’effort de mettre en place sur le site web du projet de Software Heritage un gros bouton rouge qui dit Donate. Même si quelqu’un veut donner dix euros pour soutenir le projet, c’est bienvenu, même si c’est petit ce n’est pas très grave ; l’important c’est diversifier au maximum.

Frédéric Couchet : Les sources de financement.

Roberto Di Cosmo : Les sources de financement pour minimiser le risque engendré par le fait que l’un ou l’autre des partenaires parte.
Et l’autre chose aussi c’est trouver un discours qui soit suffisamment audible auprès des entreprises, auprès d’autres entités, qu'elles soutiennent ce projet. Heureusement la France a sauvé la face parce que maintenant on a la Société Générale parmi les sponsors donc on a au moins un grand acteur français qui est présent. Par contre c’est vrai, ça aurait été sympa d’avoir d’autres acteurs qui utilisent énormément et massivement des logiciels libres qui deviennent partenaires du projet. Finalement c’est un super projet mondial qui a la cabine de pilotage à Paris, c’est assez étonnant de ne pas en trouver d’autres.

Frédéric Couchet : Finalement, si je reviens effectivement à ce que tu disais au début, les grands acteurs du logiciel libre que tu as contactés au début n’ont toujours pas embarqué le projet.

Roberto Di Cosmo : N’ont toujours pas répondu présent !

Frédéric Couchet : Est-ce que ces structures ont donné une raison, une explication ?

Roberto Di Cosmo : C’est toujours compliqué. Quand tu demandes aux gens de donner de l’argent gratuitement tu sais bien que ce n’est pas facile, ils ont toujours d’autres choses. Ils peuvent financer des évènements dans lesquels leur logo apparaît, ils peuvent financer d'autres choses. Mais là on est vraiment en train de construire une infrastructure au service de tous, donc il faut un petit peu de vision pour être capable de voir que l’investissement initial va rapporter beaucoup plus dans l’intérêt commun.
Et là, paradoxalement, à nouveau je suis assez étonné, mais Microsoft et Intel qui étaient quand même mes ennemis historiques il y a vingt ans, qui sont les deux premiers qui ont répondu présent, c’était surprenant. Au moins ils montrent qu’ils ont une vision. Après, la Société Générale, c’est un super partenariat.

Frédéric Couchet : Donc la Société Générale avoir un investissement dans le Libre très fort. Il faut le saluer.

Roberto Di Cosmo : C’est incroyable. Ils sont vraiment en train de changer leur stratégie interne dans laquelle ils mettent en place une stratégie pour le logiciel libre qui est remarquable. Dans ce cadre-là, le fait qu’ils soutiennent le projet ça me semble génial, mais je pense qu’il y a beaucoup plus à faire. Il faudrait que bien d’autres participent. On peut participer en donnant dix euros, mais on peut aussi participer en allant rajouter dans « sauver le code aujourd’hui » les bons pointeurs.

Frédéric Couchet : En proposant des sites sur lesquels il y a un code à archiver.

Roberto Di Cosmo : Des sites. Et on peut aussi, pour des gens qui veulent développer, contribuer, contribuer à construire les briques logicielles qui aident à tracer d’autres plateformes. C’est-à-dire on fait vraiment un effort maintenant pour essayer de documenter le code, rendre facile la participation ; ce n’est pas évident, c’est une grosse infrastructure, mais là aussi la contribution de la communauté est fondamentale pour que le projet prenne son essor à long terme.

Frédéric Couchet : Écoute Roberto, je te remercie. Ça me paraît être une belle conclusion un appel à soutien, en espérant que plein de gens y répondront et, en premier, que les structures qui développent des logiciels libres participent à ce projet. Est-ce que tu souhaites ajouter quelque chose avant qu’on passe à la pause musicale et qu’on change, pas tellement de sujet vu qu’on va parler un peu d’éducation après.

Roberto Di Cosmo : Je veux juste dire ça, je pourrais ajouter un élément : pour moi c’est très émouvant de me retrouver un peu dans la cabine de pilotage de ce projet, avec d’autres, je ne suis pas tout seul, il y a Stefano, il y en a plein d’autres qui aident, parce que c’est un moment magique. L’informatique est une discipline qui m’a toujours passionné et là on est à un point charnière dans cette histoire parce que le logiciel est né il y a une cinquantaine d’années, à peu près 50-60 ans. On a l’occasion unique de pouvoir reconstruire l’histoire de l’informatique, l’histoire de tous les logiciels qui sont arrivés à aujourd’hui et d’avoir l’infrastructure qui va permettre pour le futur de faciliter le développement des logiciels. Je pense qu'on est à point charnière. On a commencé il y a quatre ans à mettre en place ce qu’est Software Heritage, aujourd’hui on montre que c’est possible d’y arriver. Je pense que c’est la chose la plus passionnante qu’il ne m’est jamais arrivé de faire et j’espère, évidemment, que d’autres personnes se passionnent pour cette infrastructure et qu’on comprenne bien que ce n’est pas le projet de Roberto Di Cosmo, ce n’est pas le projet de l’équipe Software Heritage, ce n’est pas le projet d’Inria, ce n’est même pas le projet des sponsors du projet. C’est le projet de tout le monde, de toute une communauté qui trouve qu’il y a quelque chose qui est commun. Donc plus grand sera le nombre de personnes qui s’approprient le projet mieux ce sera dans l’intérêt de tous !

Frédéric Couchet : En tout cas j’espère qu’on a contribué modestement à faire connaître ce projet culturel, industriel, de recherche, d’éducation.

Roberto Di Cosmo : Merci de m’avoir fait venir.

Frédéric Couchet : Le point d’entrée c’est softwareheritage.org. Vous pouvez contribuer, Roberto a proposé pas mal de pistes de contribution et on aura sans doute l’occasion de refaire un point dans quelques mois sur la radio ou ailleurs.

Roberto Di Cosmo : Avec plaisir.

Frédéric Couchet : On va maintenant faire une pause musicale, mais Roberto reste avec nous parce que le sujet de l’éducation l’intéresse évidemment. Le morceau s’appelle Quand nous sommes à la taverne et le groupe s’appelle Ceili Moss. On revient juste après ça.

Pause musicale : Quand nous sommes à la taverne par le groupe Ceili Moss.

Frédéric Couchet : Vous êtes de retour sur l’émission Libre à vous ! sur Cause Commune 93.1 en Île-de-France et partout ailleurs sur causecommune.fm. Nous avons écouté le morceau Quand nous sommes à la taverne, le groupe s’appelle Ceili Moss. J’en profiterais pour préciser qu’évidemment il faut consommer avec modération, surtout quand dans la bouteille il y a de l’alcool.

Nous allons aborder le dernier sujet. Nous allons faire un point rapide sur le projet de loi pour une école de la confiance et plus précisément sur des amendements visant à inscrire la priorité au logiciel libre dans l’Éducation. Normalement au téléphone Jean-François Clair est avec nous. Jean-François est-ce que tu es là ?

Jean-François Clair : Oui. Bonjour Fred.

Frédéric Couchet : Bonjour Jean-François. Jean-François Clair, tu es professeur de mathématiques en collège REP+ à Paris et tu es responsable du groupe numérique au SNES qui est le principal syndicat du secondaire. Je t’ai invité à intervenir avec deux questions de base en fait. Je précise que le SNES est de longue date impliqué, a un engagement de longue date en faveur des logiciels libres dans l’Éducation. Pour quelle raison le SNES a cet engagement à la fois dans l’Éducation et dans sa pratique syndicale ?

Jean-François Clair : C’est essentiellement parce que, contrairement à ce que disent de nombreux médias, le SNES est quand même un syndicat très progressiste et, dès le tournant des années 80, lorsque la micro-informatique est apparue, de très nombreux enseignants, dont les enseignants du SNES, se sont emparés de l’outil informatique. Au fur et à mesure que les années ont passé eh bien ils ont développé une expertise, une connaissance et ils se sont très rapidement rendu compte au moment où Microsoft a pris possession, on va dire, du monde de la micro-informatique, il y avait aussi Apple de son côté, qu’on courait quand même vers une forme de marchandisation de l’école puisque, finalement, on a mis très longtemps à arriver à faire comprendre aux gens qu’il fallait parler de tableur, qu’il fallait parler de traitement de texte, de messagerie électronique et même maintenant, d’ailleurs, de moteur de recherche, plutôt que d’employer les noms qu’on utilise traditionnellement parce que c’est l’outil le plus courant à utiliser, de la même manière que dans les années 50 il y avait frigidaire qui avait remplacé le nom de réfrigérateur.
Ensuite, pourquoi le logiciel libre ? Eh bien tout simplement parce que le logiciel libre correspond à une philosophie, une façon finalement de penser le monde, où on est propriétaire de ce que l’on fait et on le met en commun puisque c’est le principe du Libre, le code est ouvert. C’était pour nous une façon de se dire que c’était peut-être la meilleure manière d’amener à ce que les élèves puissent apprendre, à un moment ou à un autre, l’informatique, en particulier le codage puisque, quand on parle de logiciel libre, il y a quand même cette dimension de codage, et surtout à pouvoir fabriquer par nous-mêmes ou améliorer par nous-mêmes les logiciels de façon à ce qu’ils correspondent à nos besoins pédagogiques. Voilà en gros comment je pourrais présenter les choses.

Frédéric Couchet : D’accord. C’est un engagement de longue date. Je précise que le SNES est membre de l’April. Il y a aussi un autre syndicat qui est membre de l’April qui est le SGEN-CFDT ; il y a aussi une section du Bas-Rhin du SNUIPP-FSU qui est membre de l’April. C’est aussi intéressant en termes de soutien de nos actions parce que c’est relativement récent ces adhésions à l’April, mais ça ne cache pas le fait, au contraire, ça renforce le fait que ces syndicats, depuis de longue date, essayent de promouvoir le logiciel libre à la fois dans leur pratique syndicale et aussi dans l’enseignement.
Aujourd’hui on va parler, assez rapidement parce que la fin de l’émission approche, d’un projet de loi qui a été déposé à l’Assemblée nationale début décembre, qui est le projet de loi pour une école de la confiance. Initialement, le projet de loi pour une école de la confiance ne visait pas spécifiquement le logiciel libre, mais il se trouve que des députés ont déposé des amendements. Sans refaire tout l’historique, notamment en commission et avant que je te pose la deuxième question pour qu’on comprenne, là actuellement le projet de loi est étudié à l’Assemblée nationale en séance publique, donc ça a commencé lundi, ça va se poursuivre tout à l’heure après la séance des questions du gouvernement donc ça a peut-être commencé.
En fait il y a deux types d’amendements qui ont été déposés par des parlementaires pour la séance publique. Il y a premier type d’amendements qui a été déposé par les députés de la France insoumise qui vise à imposer l’usage du logiciel libre dans l’Éducation, je lis l’amendement : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont des logiciels libres » , c’est l’amendement 571.
Et de son côté le groupe communiste, notamment le député Stéphane Peu, a déposé deux amendements qui visent à inscrire la priorité au logiciel libre, ce qui est différent d’imposer l’usage du logiciel libre. Le lis l’amendement 836 de Stéphane Peu : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont en priorité des logiciels libres ». On voit deux approches différentes. Nous, l’approche priorité au logiciel libre c’est celle que l’on défend depuis de nombreuses années, notamment pour gérer la phase de transition nécessaire, parce que évidemment, dans le monde de l’Éducation malheureusement, Microsoft, Apple et autres sont très présents. Quelle est la position du SNES sur ces deux options priorité ou imposition du logiciel libre ?

Jean-François Clair : On ne peut pas imposer. On ne peut absolument pas imposer le logiciel libre pour une bonne et simple raison c’est qu’il existe un certain nombre de choses qui relèvent de codes propriétaires. Je vais prendre un exemple tout simple : pendant des années les collègues ont développé des petites animations Flash qui sont basées sur Adobe Flash, c’est du code complètement propriétaire, ce n’est pas du Libre.

Frédéric Couchet : Ce n’est pas du libre. Flash c’est propriétaire.

Jean-François Clair : C’est mis gratuitement à disposition de, mais ce n’est pas du Libre. Donc on ne peut pas imposer à tout prix le Libre surtout dans une société qui n’est pas encore prête à, comment dire, réfléchir publiquement sur la protection des données, comme on l’a vu l’année dernière avec la loi qui a été votée au moment de l’entrée en vigueur définitive du RGPD [Règlement sur la protection des données]. Pour nous, il s’agit de donner la priorité au logiciel libre. De toute façon il existe aussi un certain nombre de solutions qui ont été développées en code propriétaire et qui n’ont pas leur équivalent dans le monde du Libre.

Frédéric Couchet : Qui n’ont pas encore leur équivalent.

Jean-François Clair : Et qui sont, malgré tout, utilisées par un certain nombre de collègues.

Frédéric Couchet : D’accord. Ça rejoint notre position.
Je répète que les débats ont lieu en ce moment. Pour les personnes qui nous écoutent, la meilleure façon d’agir c’est de contacter des parlementaires, un courriel ou un coup de téléphone, c’est encore plus efficace, avec vos propres arguments : expliquer pourquoi vous considérez que le logiciel libre doit être prioritaire dans l’Éducation ; vous pouvez employer les arguments qui vous parlent et les parlementaires, les députés, sont sensibles à ces questions-là. En termes d’agenda il est probable que ces amendements seront discutés mercredi ou jeudi parce qu’en fait ils sont après l’article 24, donc c’est vraiment en fin de discussion. Contactez vos parlementaires. En commission, des amendements un peu équivalents avaient été proposés et le ministre Jean-Michel Blanquer avait indiqué qu’en fait, déjà dans la loi, il y avait un encouragement à utiliser du logiciel libre dans l’administration. Il faut savoir que dans la loi il y actuellement une phrase, de mémoire « l’offre logicielle tient compte de l’offre logiciel libre. »

Jean-François Clair : Ce n’est pas suffisant !

Frédéric Couchet : Ce n’est pas suffisant, c’est-à-dire qu’on ne fait pas une politique avec des encouragements ou une injonction à tenir compte. On fait une politique avec des priorités, donc entamer dès maintenant une démarche de transition vers les logiciels libres en inscrivant dans la loi la priorité aux logiciels libres et aux formats ouverts dans l’Éducation nationale. Jean-François est-ce que tu veux rajouter quelque chose sur ce point ?

Jean-François Clair : Je ne vois pas trop. En fait, tu as déjà tout dit.

Frédéric Couchet : On avait relativement peu de temps, enfin peu de temps à consacrer, mais c’est qu’en fait l’émission se termine bientôt et il y avait plusieurs sujets, mais il était important de parler de ce sujet-là. Je suis personnellement convaincu que l’inscription dans la loi de la priorité au logiciel libre n’est qu’une question de temps. Il y a déjà eu de nombreux débats. Pour les personnes qui avaient suivi le projet de loi République numérique en 2016, à l’Assemblée nationale en séance publique, il y avait eu un long débat, près de 45 minutes ce qui est beaucoup sur un seul amendement, et on voyait qu’il n’y avait pas l’opposition classique qu’on connaissait, mais au contraire il y avait vraiment des liens qui se faisaient entre députés de différents bords. Le gouvernement de l’époque s’y était opposé. On espère que ce nouveau gouvernement ne s’y opposera pas, parce que, par rapport aux débats en commission, nous on a apporté des arguments justement sur la nécessité de la priorité. Ce qui est intéressant c’est qu’il y a deux types d’amendements qui sont proposés ce qui va permettre d’avoir un échange intéressant en séance. C’est sans doute plutôt mercredi ou jeudi et j’encourage chacun et chacune à contacter des députés. Sur le site de l’April, april.org, vous avez une page qui récapitule le dossier, qui précise les amendements et qui vous donne des pistes pour contacter des parlementaires.
Écoute Jean-François je te remercie de ton intervention et je pense qu’on aura l’occasion prochainement dans l’émission de faire un sujet beaucoup plus général sur le logiciel libre, l’Éducation, les formats ouverts, les données personnelles des élèves et des enseignants et enseignantes. Je te remercie Jean-François et à bientôt.

Jean-François Clair : Merci beaucoup Fred, à une prochaine fois.

Frédéric Couchet : L’émission va bientôt se terminer je vais juste faire une petite annonce qui est en lien, en fait, avec ce sujet-là, tout simplement.
Ce week-end à Beauvais auront lieu les PrimTux Days donc les journées Primtux. PrimTux est un système d’exploitation complet et libre qui propose un environnement de travail qui est adapté aux cycles de l’école primaire. On est toujours dans le domaine de l’école. C’est à Beauvais du samedi 16 février à 10 heures au dimanche 17 février à 17 heures. Vous retrouvez les informations détaillées sur le site de l’Agenda du Libre, donc agendadulibre.org et évidemment, sur le site de l’Agenda du Libre, vous trouvez tous les évènements du Libre qui se passent à Paris et ailleurs, les soirées de contribution au Libre, on a parlé tout à l’heure de contribuer à Softfware Heritage. On peut contribuer aux projets libres directement, les différents apéros, l’occasion de rencontrer des gens.

Notre émission se termine. Vous allez bientôt avoir le plaisir d’entendre notre générique de fin qui est Wesh Tone de Realaze.Vous retrouvez sur notre site web april.org toutes les références utiles que nous avons citées aujourd’hui. La page sera mise à jour s’il y a des références qu’on a oubliées. Vous retrouvez aussi sur le site de la radio causesommune.fm. N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu mais aussi des points d’amélioration.
On va se retrouver le 19 février donc mardi prochain à 15 heures 30. Nous parlerons du Pacte de la Transition avec Aliette Lacroix, nous ferons un point sur la directive droit d’auteur avec Anne Catherine Lorrain qui travaille au Parlement européen pour le groupe des Verts et notre sujet principal, là c’est aussi un grand plaisir, j’aurais le plaisir d’échanger avec Stéphane Bortzmeyer dans le cadre du livre qu’il vient de publier Cyberstructure. L'Internet, un espace politique.

Je vous souhaite de passer une belle journée et on se retrouve la semaine prochaine. D’ici là portez-vous bien.

Vers l’automatisation de la censure politique

Une tribune de Félix Tréguer, membre de La Quadrature du Net

Pour vous opposer à l’automatisation de la censure imposée par le règlement terroriste, rendez-vous sur notre page de campagne et contactez les députés européens jusqu’au 21 mars

Nous sommes à un tournant de la longue histoire de la censure. Ce tournant, c’est celui de la censure privée et automatisée. Il acte une rupture radicale avec les garanties associées à la liberté d’expression que les luttes démocratiques du XIXème siècle nous avaient léguées en héritage.

L’héritage démocratique-libéral piétiné

La loi de 1881 sur la liberté de la presse – aujourd’hui interprétée à la lumière de la Convention européenne des droits de l’Homme – est certes pleine de lacunes, et on a trop souvent tendance à exagérer son libéralisme. Mais elle n’en demeure pas moins une boussole fondamentale pour la liberté d’expression, prévoyant par exemple des règles procédurales spéciales pour juger a posteriori des abus de cette liberté, et consacrant la compétence exclusive du juge judiciaire dans le cadre de procédures publiques.

Ces dernières années, cet héritage a été piétiné. Les protections associées à la liberté d’expression reculent partout : dans la rue, dans la presse mais aussi et surtout sur Internet. Si le phénomène est ancien, le contexte actuel de crise (anti)terroriste et la dérive autoritaire qu’oppose le pouvoir aux mouvements sociaux y contribuent grandement. Pour ne prendre qu’un sujet qui nous intéressera ici, rappelons par exemple qu’en 2014, le législateur a estimé que l’« apologie du terrorisme » sur Internet n’aurait à ce point rien à voir avec la liberté d’expression qu’elle pourrait faire l’objet d’une censure secrète du ministère de l’intérieur. Cette évolution aura d’ailleurs conduit fin 2016 à la censure de communiqués revendiquant des actes de destruction matérielle de véhicules policiers, en réponse à l’inculpation de personnes arrêtées en lien avec les manifestations contre la loi travail de 2016.

Par le même vote de 2014, le Parlement jugeait également l’apologie du terrorisme indigne de la loi de 1881 et de ses garanties, et bien plus à sa place dans le code pénal. En contournant les garanties procédurales attachées à la loi de 1881, cette évolution aura conduit aux comparutions immédiates et à des condamnations totalement disproportionnées de dizaines de provocateurs au lendemain des attentats de janvier 2015.

De l’expérimentation à la législation

Cette fuite en avant est en train d’atteindre un point de bascule. Depuis 2015, les gouvernements français, britannique, allemand et étasunien n’ont eu de cesse de mettre les multinationales de l’économie numérique sous pression pour les inviter à faire la police sur leurs plateformes. De visites ministérielles dans la Silicon Valley en sommets « États-plateformes » sur le terrorisme, Google, Facebook et consorts ont accepté ces collaborations visant à massifier la censure de la propagande terroriste dans un cadre extra-judiciaire.

Après de nombreuses expérimentations menées ces dernières années, notamment par  Interpol ou encore le ministère de l’intérieur français, ces nouveaux agencements public-privé sont en passe d’être couronnés par l’adoption à marche forcée d’un règlement européen dédié à la lutte contre la propagande terroriste, présenté en septembre dernier par la Commission Juncker.

La France est, avec l’Allemagne, directement à l’origine de ce texte. Le 12 avril dernier, le ministre de l’intérieur Gérard Collomb et son homologue allemand écrivaient à la Commission européenne pour l’intimer d’agir au plus vite pour présenter et faire adopter ce texte. Celle-ci a donc obtempéré, présentant son projet en catimini le 12 septembre – le jour où le Parlement européen adoptait le fameux article 13 de la directive copyright, dont les obligations en matière de censure automatique nourrissaient alors la controverse.

Dans sa version initiale, ce projet de règlement antiterroriste tient en quelques articles :

  • L’article 4 prévoit une obligation pour tout fournisseur de service Internet (hébergeurs web, fournisseurs de messagerie, etc.), quelle que soit sa taille ou son fonctionnement (il ne s’agit pas seulement des grosses plateformes), de retirer dans un délai d’une heure les contenus signalés par les autorités, sous peine d’importantes sanctions financières.
  • L’article 5 permet également à ces mêmes autorités d’imposer une telle censure non sur la base du droit national applicable (par exemple, en France, le décret Cazeneuve de février 2015 sur la censure administrative d’Internet), mais sur la base des conditions d’utilisation des plateformes. Les polices européennes pourront donc, comme le fait déjà le ministère de l’intérieur français ou Europol, signaler des contenus haineux ou terroristes pour exiger leur censure, sur la base du droit privé.
  • L’article 6 impose enfin aux hébergeurs d’adopter des mesures « proactives » pour lutter contre la propagande terroriste (article 6). Comme dans la directive copyright, il s’agit en réalité de déployer des filtres informatiques scannant l’ensemble des contenus mis en ligne par les utilisateurs d’un service pour bloquer ceux correspondants à certains critères arrêtés par ces firmes. Une forme de censure préalable, mise en œuvre par des acteurs privés via des outils automatiques qui pourront être paramétrés en partenariat avec les États.

La censure automatique bientôt généralisée

De la lettre d’avril 2018 émanant des ministres de l’intérieur français et allemand, il ressort deux choses, depuis confirmées par les informations glanées ces dernières semaines dans différents ministères.

D’abord, la certitude que le règlement est un pied dans la porte, une manière bien coutumière d’imposer des mesures controversées en invoquant des justifications supposées imparables – ici la lutte (anti)terroriste. Comme l’expliquent les ministres de l’intérieur dans cette missive :

« Il conviendra par la suite d’étendre les règles fixées aux contenus à caractère pédopornographique et à ceux relevant des discours de haine l‘incitation à la discrimination et à la haine raciale, atteinte à la dignité de la personne humaine…) ».

À terme, ce nouveau régime de censure a donc vocation à être généralisé. Il suffira de revoir les paramètres de ces outils de censure pour ajouter de nouvelles catégories de contenus.

Le deuxième enseignement de cette lettre des gouvernements français et allemand est que ces systèmes de censure automatique développés par les grandes plateformes devront être proposés à l’ensemble des acteurs visés par ce texte. Comme le soulignent les ministères dans leur missive :

« Les grandes entreprises [devront] apporter un soutien logistique aux plus petites plateformes, tant les moyens de celles-ci sont par trop limités pour apporter une réponse efficace à notre injonction de retirer rapidement les contenus à caractère terroriste ».

Il est vrai que ces systèmes sont coûteux : Content-ID, l’outil mis en place par YouTube pour détecter de possibles atteintes au droit d’auteur dans les vidéos publiées par ses utilisateurs, aura à lui seul coûté près de 100 millions de dollars en développement…

Macron en soutien

Début novembre 2018, lors du Forum sur la gouvernance d’Internet qui se tenait dans les locaux de l’Unesco à Paris, Emmanuel Macron est revenu sur ce règlement, un texte qu’il a dit « soutenir pleinement », espérant « son adoption rapide avant les élections européennes ». Soit en à peu près 6 mois, délai exceptionnellement court pour un texte sécuritaire qui institue une censure extra-judiciaire pour l’ensemble des acteurs du Net opérant au sein de l’Union européenne.

Or, dans son discours, Macron confirme le bien-fondé des craintes soulevées par le règlement. Assurant que la « régulation des contenus illicites ou indésirables » est « la prochaine frontière », il s’empresse de distinguer « deux blocs » :

  • « le premier concerne la lutte contre les contenus objectivement et gravement illégaux – le terrorisme, la pédopornographie ». Pour ces contenus, l’intelligence artificielle est « mûre », assure le président français. C’est bien le sens du règlement européen que d’en généraliser l’usage.
  • « le second rassemble les contenus dont le caractère illicite est soumis à une interprétation, souvent d’ailleurs différente d’un pays à l’autre – les contenus haineux, la diffamation, le harcèlement ». Pour ces derniers, Emmanuel Macron estime que l’intelligence artificielle « n’est pas encore assez fine pour distinguer l’ironie, la parodie ou au contraire reconnaître un sous-entendu abject sous un discours policé ».

« Pas encore », donc bientôt ? Cette perspective a récemment été confirmée par Mounir Mahjoubi, secrétaire d’État au numérique : en annonçant le plan de lutte contre les contenus haineux sur Internet, le 14 février dernier, celui-ci évoquait sans réserve la perspective de soumettre les « discours de haine » à la censure automatique.

Quant à la référence aux contenus « indésirables », signifie-t-elle que que le chef de l’État entend encourager l’extension de ces systèmes de censure à des contenus licites mais réputés nuisibles par le pouvoir ? Un projet qui, parmi tant d’autres choses, contredit frontalement l’image d’un homme politique prétendant incarner l’« axe humaniste » européen dressé contre la fascisation du continent…

L’intelligence artificielle, Saint Graal des États

Durant les trois jours du Forum sur la gouvernance d’Internet, l’« intelligence artificielle » (ou IA) était sur toutes les bouches. C’est bien elle, en réalité, la nouvelle frontière censée transformer toutes les bureaucraties. C’est bien elle qui, selon l’expression entendue à maintes reprises durant cet événement, permettra à la surveillance et à la censure de « passer à l’échelle » (« scale up », en anglais).

Les progrès réalisés ces dernières années en « Machine Learning » et en traitement automatique des textes et des images fait en effet figure de Saint Graal pour les États. Fin 2017, un conseiller de Theresa May expliquait que si les États avaient besoin des multinationales américaines pour faire le sale boulot, c’est qu’après tout, « ces entreprises ont les meilleurs cerveaux du monde ».

Ces firmes, réunies depuis juin 2017 au sein d’un consortium baptisé « Global Internet Forum to Counter Terrorism », mettent en avant des résultats impressionnants (quoique guère vérifiables) en matière d’automatisation de la détection des contenus terroristes : YouTube parle de 98% de contenus de ce type repérés automatiquement, tandis que Facebook explique que 99% des contenus liés à l’État islamique ou à Al-Qaïda sont retirés avant que quiconque ne les ait signalés.

Pour l’heure, ces outils de censure automatique n’opèrent souvent qu’un premier filtrage, et l’immense majorité des contenus censurés sont en réalité « modérés » par des prestataires établis en Inde, au Philippines ou au Maroc pour juger de la conformité de textes ou d’images aux conditions d’utilisation des plateformes. Ces petites mains de la censure qui travaillent dans des conditions déplorables se voient imposer des objectifs délirants de l’ordre de 2000 images par heure, soit une appréciation portée sur une image en moins de deux secondes. En 2017, Facebook annonçait porter ses équipes de modération de 3000 à 7500 personnes. Google envisageait dans le même temps de porter le nombre de modérateurs YouTube à plus de 10 000.

Ces chiffres rappellent que, malgré ses rapides progrès, la censure automatisée n’est encore que balbutiante. Mais compte tenu des milliards investis dans la recherche en IA et des pressions exercées par les États, sa généralisation est désormais à portée de main. La censure privée et automatisée, que des organisations comme La Quadrature du Net combattent depuis des années, est bien en passe de fonder un nouveau régime de censure.

La fusion État-GAFAM : actualisation de logiques anciennes

Si l’on pense l’État non pas comme un bloc aux contours clairement identifiés (à la manière des juristes) mais davantage comme un ensemble de pratiques et une rationalité que Michel Foucault désignait comme la « gouvernementalité », alors il est clair que ce que ces évolutions donnent à voir, c’est l’incorporation de ces acteurs privés à l’État ; c’est la cooptation de leurs infrastructures et la diffusion de leurs savoir-faire dans le traitement et l’analyse de masses de données désormais cruciales dans les formes contemporaines de gouvernement. C’est donc une fusion qui s’opère sous nos yeux, bien plus qu’une concurrence entre les États et les GAFAM qui chercheraient à se substituer aux gouvernements.

Ces logiques de cooptation d’acteurs privés par l’État sont récurrentes dans l’histoire de la censure. À partir du XVIè siècle, alors que le développement de l’imprimerie joue un rôle clé dans la propagation de doctrines politiques et religieuses subversives, l’État moderne en gestation recourait déjà aux partenariats public-privé dans la surveillance et la censure des communications.

En France par exemple, le cardinal de Richelieu conclut au début du XVIè siècle une alliance avec les libraires parisiens qui réclament un monopole perpétuel sur l’édition des livres pour écraser la concurrence. Ils se voient octroyer des privilèges à durée quasiment illimitée en échange de la conduite d’une mission de surveillance des publications et la docte application des règlements en matière de censure. Cette politique bientôt élargie à l’ensemble du royaume, permettra à une trentaine d’imprimeurs-libraires de maîtriser tant bien que mal la production et la distribution des livres. Cela n’étouffait évidemment pas totalement l’édition clandestine, mais permettait de maîtriser un tant soit peu les effets politiques de l’imprimerie, d’affermir l’absolutisme tout en remplissant les caisses de quelques hommes d’affaires.

Lors de leur apparition au tournant des années 1980, les réseaux informatiques – et Internet en particulier – se sont donnés à penser comme une technologie radicalement subversive des formes de contrôle des communications qui s’étaient institutionnalisées dans le giron de l’État moderne, et transposées aux différentes techniques de communication apparues depuis l’imprimerie. Ils allaient bientôt induire la massification des flux transfrontières d’information, l’anonymat relatif des communications numériques, l’appropriation de ces technologies par des groupes contestataires et marginalisés dans l’espace public traditionnel, et plus généralement la démocratisation de la capacité d’expression publique au delà du petit cercle des personnes ayant jusqu’alors accès aux médias traditionnels. Tout cela déstabilisait les modalités de contrôle de l’espace public et, plus encore, la souveraineté des États. Internet était donc perçu comme un espace dangereux. Il fallait donc réarmer la police de l’espace public ou, pour reprendre le vocable que Nicolas Sarkozy avait emprunté au parti communiste chinois, le « civiliser » (un terme encore repris récemment par Mounir Mahjoubi).

La solution est donc en passe d’être trouvée, et il aura fallu moins d’un quart de siècle. Aujourd’hui, au lieu d’une petite dizaines d’imprimeurs-libraires à l’échelle d’un pays, ce sont une poignée d’entreprises américaines qui sont cooptées par les bureaucraties d’État dédiées à la surveillance et à la censure. En dépit des discours lénifiants sur la « souveraineté numérique », les gouvernements préfèrent en fait renforcer la position dominante de ces multinationales, en obligeant l’ensemble des acteurs du numérique à leur acheter leurs systèmes de censure. Ceux qui ne pourront pas se le permettre ou qui refuseraient de se faire auxiliaires de censure – notamment ceux qui font encore vivre un Web indépendant, non-commercial, alternatif – seront poussés à mettre la clé sous la porte.

L’instrumentalisation de la lutte contre les discours de haine

On nous parle de lutter contre la propagande terroriste et les discours de haine. Mais il est désormais de plus en plus clair que cette lutte reposera sur des dispositifs de censure automatique qui resteront de véritables « boîtes noires », par définition secrètes, gérées par des partenariats public-privé opaques. Ces derniers consentiront peut être à mettre en scène une certaine transparence, un peu d’autorégulation et des aménagements présentés comme autant de garanties – à l’image de Facebook qui nous promet aujourd’hui de mettre sur pied une « cour suprême » pour recevoir des plaintes d’utilisateurs victimes de sa politique de « modération ». Mais ils ne présenteront jamais les garanties offertes par des juridictions traditionnelles. Et pour cause : ces dispositifs sont conçus pour s’en affranchir. La censure automatique des communications a cet avantage pour le pouvoir qu’elle est presque invisible, et donc pratiquement incontestable.

On nous parle de lutter contre les discours de haine via la censure d’Internet. Mais depuis plus de quarante ans que des incriminations existent pour réprimer les expressions incitant à la haine et aux discriminations, a-t-on vraiment fait des progrès en la matière ? De fait, l’intolérance se donne à voir au grand jour sur Internet, où elle s’abat sur des groupes structurellement discriminés. Pour autant, ces opprobres sont aussi quotidiennes dans les médias traditionnels, dans les cénacles politiques, et bien souvent dans les pratiques des institutions.

On nous parle de lutter contre les discours de haine. Mais il apparaît de plus en plus clairement que ce qui est aussi visé, c’est l’invisibilisation de tout discours associé de près ou de loin à des formes de violence politique qui risqueraient d’être perçues comme légitimes. C’est ce qu’illustre par exemple l’affaire déjà évoquée, lorsque fin 2016, au nom de la lutte contre le terrorisme, le ministère de l’intérieur enjoignait à deux sites participatifs de censurer un communiqué revendiquant l’incendie d’un hangar de gendarmerie, acte présenté par les auteurs comme une réponse à la répression policière (cette décision aura finalement été annulée début 2019 par la justice administrative, exceptionnellement saisie de cette affaire). Plus largement, c’est l’ensemble des discours politiques contestataires qui pourraient bientôt faire l’objet de cette censure secrète. La tentation du pouvoir est réelle, comme en témoigne les velléités récentes du ministère de l’intérieur de censurer un photomontage qui remplaçait le visage du général Pinochet et de ses sbires par ceux d’Emmanuel Macron, d’Édouard Philippe et de Christophe Castaner.

S’il était adopté, le règlement antiterroriste serait donc une pierre de plus dans la mise en place de ces nouveaux dispositifs dédiés à l’invisibilisation des expressions politiques contestataires. Rien qu’en s’en tenant à la catégorie de l’apologie du terrorisme, les outils de censure développés par les multinationales du numérique en lien avec les autorités trouveraient à s’appliquer à de nombreuses activités militantes : le sens du terme « terrorisme » est en effet tellement vague, ou lorsqu’une définition existe elle est tellement large, qu’il peut servir à justifier la censure de toute expression favorable à des actions politiques offensives ou violentes – y compris la destruction de biens matériels, le sabotage ou le blocage d’infrastructures.

Conjurer la re-féodalisation de l’espace public numérique

Si l’on se soucie de la liberté d’expression et de l’État de droit, si l’on se soucie de ménager un espace où le pouvoir pourra être critiqué, où nous pourrons débattre et nous organiser, où un peu de sens commun pourra se construire, ces nouvelles formes de censure doivent être tenues en échec.

Ce qu’il faut, c’est d’abord comprendre qu’une grande partie du problème lié aux discours haineux sur Internet tient à ce qu’est devenue l’économie politique de ce réseau. Le nœud du problème spécifique que pose Internet, c’est bien la manière dont les grandes entreprises du numérique conditionnent les régimes d’attention : les contenus attrape-clics, simplistes et sans nuance, jouant sur les émotions négatives ; les « bulles de filtres » qui nous enferment tout en donnant l’illusion de neutralité, et offrent un faux sentiment de sécurité en permettant aussi à des individus aux identités politiques radicalement adverses de venir nous agresser sur des plateformes ouvertes aux quatre vents.

Face aux « Fake News » et à la haine qui sévit aussi sur Internet, ceux qui prétendent nous gouverner se frottent les mains : le pourrissement de l’espace public numérique leur permet aujourd’hui de légitimer le retour de vieilles stratégies de contrôle. C’est tout le sens du discours de Macron au Forum sur la gouvernance d’Internet.

Ce n’est pourtant pas une fatalité. Ces dernières semaines, La Quadrature du Net a commencé à exposer des positions destinées à lutter par le droit contre ces infrastructures centralisées qui pervertissent le débat public, tout en favorisant l’éclosion d’îlots de communication communautaires et fédérés où pourront se redéployer les espaces d’expression, de conversation, et donc une partie du débat public. L’idée phare de ces propositions, c’est de casser le régime d’attention mis en place par les plateformes, fondé sur la collecte des données personnelles et la hiérarchisation des contenus à des fins commerciales, au sein d’infrastructures gigantesques pensées pour rendre les utilisateurs captifs.

L’objectif, c’est bien de promouvoir en lieu et place une nouvelle topologie de l’espace public numérique capable de protéger des lieux de discussion décentralisés mais pouvant être reliés les uns aux autres, laissant à chacun le choix de ses communautés et des limites données à la liberté d’expression, pour ainsi mieux maîtriser son degré d’exposition aux conflits qui traversent immanquablement l’espace public. L’espoir est d’ainsi réduire le risque de conflits interpersonnels non-souhaités. C’est de faire en sorte que la demande sociale de censure soit moins forte et que la censure préalable et automatique puisse ne plus apparaître comme la seule option valable ; que le principe d’une protection judiciaire de la liberté d’expression soit préservé.

L’urgence, c’est en tous cas de rompre l’alliance des appareils policiers et des grands marchands d’infrastructures numériques. C’est d’éviter que ne se consolident les fondements techniques et juridiques d’une société de contrôle nous enfermant imperceptiblement dans une cage de fer algorithmique.

Ce texte est adapté d’une intervention au colloque « Réglementer la liberté d’expression au nom du débat public », qui se tenait à l’Institut de Recherche Philosophiques de Lyon (IRPhiL) les 29 et 30 novembre 2018.

Journal, #3 (février 2019)

14 février

J’ai été me promener à l’Apple Store des Champs Élysées. C’est un très bel endroit, mélange d’ancien et de moderne, aux lignes de perspective assez folles confinant parfois au vertige. S’y croisent des centaines de personnes, clients potentiels ou simples curieux, rêvant de posséder ces machines perfectionnées qui trônent au bout de nos doigts tels de fiers empereurs. Mais les prix aussi sont vertigineux. Je m’interdis d’envisager ce genre d’achat, même à crédit, c’est devenu trop d’argent – presque un salaire, même pour le moins perfectionné des smartphones. Il y a eu une rupture : Apple assume pleinement désormais de fabriquer des appareils pour les riches, ou pour celles et ceux qui n’ont pas peur de s’endetter. Avoir des enfants a modifié mon rapport à l’argent, je crois. Je ne peux plus le dépenser pour moi seul.


15 février

Rêve complètement fou cette nuit, digne d’un tableau de Bosch ou d’un épisode de Shingeki no Kyojin : j’assistais à la lutte dantesque d’une poignée de soldats médiévaux, retranchés dans les ruines d’un château-fort, contre des titans extraordinaires et fantasques – l’un d’entre eux était une sorte de sosie déformé d’Edgar Poe, l’autre un squelette, un autre encore doté d’yeux disproportionnés… Les soldats, si terrifiés qu’ils en pleuraient comme des enfants… et les géants, goguenards et grotesques, comme d’immenses pantins désarticulés… et moi au milieu, comme étranger au spectacle, ou plutôt là en spectateur. Ni peur ni horreur : juste une sorte de fascination amusée.


Fatigue immense toute la journée, comme si je venais de me réveiller en permanence. Ça ne me réussit pas de combattre des géants la nuit. Me suis-je seulement réveillé ce matin ?


16 février

Un samedi à Paris, c’est un peu le frisson de la révolution à peu de frais, en ce moment. Stations de métro bloqués, messages anxiogènes de la préfecture, rien n’est épargné au passant qui veut juste aller d’un point A à un point B sans faire de bruit (ni casser quoi que ce soit). C’est drôle comme la révolution est à ce point dans l’ADN des Français. Dans ce pays, l’insurrection est même pratiquée comme un sport : de façon intense et seulement le week-end. J’attends d’assister aux championnats du monde.


Souvent je dévie de ma trajectoire. Mais toujours je parviens à remettre le train sur les rails. « Écrire, ce n’est pas sérieux. » Peut-être, peut-être pas. Toujours est-il que, parfois, je me laisse contaminer.


« Alita Battle Angel » au cinéma : en tant qu’adorateur du manga, l’un des premiers que j’ai lus, j’avais très envie de le voir. Pas déçu, pas transcendé non plus, mais c’etait divertissant et émouvant – pourquoi toujours chercher le film parfait ? On devient exigeant.

Ce qui est intéressant, c’est que le personnage principal est en images de synthèse, et qu’il est de loin le plus expressif d’entre tous. A côté, les acteurs en chair et en os font pâle figure. C’est étonnant, non ? C’est la première fois que ça me frappe autant. On ne reproche jamais aux personnages de dessins animés de jouer faux, ça n’existe pas. Résultat, à côté d’Alita, les autres acteurs ont l’air de mal jouer parfois. Je ne sais pas comment il faut le prendre. Mais bravo en tout cas à Rosa Salazar pour sa performance en « motion capture » : la marionnettiste est talentueuse.

Aussi, je l’ai vu dans une salle Gaumont 4D : les sièges bougent, il y a du vent, de l’eau, des éclairs, c’est assez amusant, comme un grand huit. Avec les grandes télévisions, les home cinema, je crois que le cinéma doit se renouveler pour donner envie aux spectateurs de payer leur billet. C’est une manière de le faire.


C’est terrible d’aimer tant la fiction. Parce qu’on est condamné à se résigner : jamais nous ne pourrons vivre dedans.

17 février

J’ai profité d’un dimanche après-midi libre pour aller visiter la convention Paris Manga. C’était la première fois que j’allais dans ce genre de salon. Et le moins qu’on puisse dire, c’est que c’est plus vivant que le salon du livre. Ici la culture vibre, on la porte sur ses vêtements, on l’affiche fièrement. C’est bruyant, grouillant de monde, rempli d’adolescents et d’enfants déguisés. Le seul problème, c’est qu’au milieu d’une telle foule, on se sent un peu vieux – j’aurais aimé participer à ça à 14 ans. Mais à 14 ans, les mangas, je les lisais dans ma chambre.

Seul note triste de la visite : d’anciens acteurs de la série Buffy donnaient une conférence et je suis passé voir. J’aurais mieux fait de m’abstenir. Il vaut mieux laisser les bons souvenirs là où ils sont. Mais ça ne doit pas être marrant de faire la tournée des conventions pour un truc qu’on a fini de tourner il y a 20 ans. Je n’y suis resté qu’une minute.

En tout cas, rien de tel qu’une visite à Paris Manga pour se sentir soudain très vieux.


J’ai l’impression qu’on vit dans un monde où on est considéré (on alors où on se considère soi-même) comme vieux de plus en plus tôt. Ce qui est paradoxal, quand on pense que l’espérance de vie ne cesse de s’améliorer. Ça veut juste dire qu’on est vieux plus longtemps.

Ce qui est marrant, c’est que je ne me suis jamais senti « jeune ». Même à 15 ans, je m’imaginais ailleurs et autrement. Est-ce qu’il y a un âge où on est content d’avoir son âge, d’ailleurs ?


En train de lire The Promised Neverland : c’est un manga très sympa, qui par la construction très « stratégiste » du scénariste Kaiu Shirai fait beaucoup penser à Death Note. Le dessin tantôt doux, tantôt aiguisé de Pozuka Demizu épouse à merveille cette histoire d’orphelinat pas clair où les enfants sont certes choyés, mais pour d’inavouables raisons. Pas étonnant que le manga rencontre un tel succès.


21 février

Pas de journal depuis plusieurs jours, pour une raison très simple : quand je donne des formations éditoriales à Paris (je forme les éditeurs de demain à l’environnement et aux outils du livre numérique), cela me laisse épuisé, incapable de faire quoi que ce soit le soir venu. Ce n’est pas tant que le travail soit intrinsèquement épuisant – je ne fais que donner des cours, je ne travaille pas sur une chaîne d’usine. Mais je fais toujours violence à ma nature première d’introverti.

Pour la première fois, je donnais aussi des cours à de plus jeunes élèves, dans une célèbre école d’arts. J’avais oublié ce que c’est que de côtoyer des gens qui sortent à peine de l’adolescence. D’ordinaire mon « public » est âgé de trente à cinquante ans, parfois plus, et ce sont souvent des professionnels déjà accomplis de l’édition, qui souhaitent acquérir des connaissances supplémentaires ou se reconvertir dans une autre branche. Ici, j’avais des jeunes adultes en formation, avec ce que cela implique : parfois dissipés, certains pas intéressés du tout… contrairement aux adultes, ils sont là parce qu’ils ont l’obligation de l’être. Heureusement pour moi, cela s’est plutôt bien passé, pour une première.


Dans une phase « lecture de mangas ». J’en lis à longueur d’année, mais rarement de façon aussi intensive : d’habitude, j’entrecoupe de romans. Mais depuis deux semaines, je suis incapable de lire autre chose. Une vraie fringale.


On m’a reproché de trop parler des réseaux sociaux depuis que je ne suis plus sur les réseaux sociaux. Il me semble que j’en ai toujours parlé beaucoup… mais peut-être. Eh, vous avez remarqué ? À part dans ce paragraphe, je ne les ai pas mentionnés une seule fois. C’est donc qu’il y a du progrès.

❤

Vous aimez mon travail et vous avez envie de m’aider à continuer ? Vous pouvez me soutenir sur Tipeee et avoir accès en retour à des contreparties exclusives. Sans compter que vous continuerez de profiter du contenu de ce site en sachant que vous y êtes un peu pour quelque chose.

Danse : Le Lac des cygnes de Tchaikowski – Paris Bastille 2019

Classique de la danse, ballet sans doute le plus dansé au monde, le Lac des Cygnes restes toujours aussi populaire et il me fallait le (re)voir, mais cette fois à l’Opera Bastille. Il n’y avait qu’une semaine que les représentations avaient repris. Mais je dois rappeler l’histoire, pour une oeuvre créée en 1877 par Tchaikosvski,… Lire la suite Danse : Le Lac des cygnes de Tchaikowski – Paris Bastille 2019

Rubrik lance Build, un programme de collaboration open source autour d'APIs

Rubrik annonce le lancement de Rubrik Build. Cette communauté Open Source, qui englobe plusieurs projets, vise à « encourager la création par des contributeurs, de nouveaux outils d'automatisation et d'intégration ainsi que de nouvelles applications s'appuyant sur les API Rubrik. »
Chaque projet Build s'accompagnent ainsi de SDK, d'exemples d'intégration et de cas d'utilisation, ainsi que d'une documentation détaillée et d'un guide de démarrage.
Les projets Open Source de Rubrik Build se répartissent en (...)

- Développement

De la modération : enjeux, limites, remèdes

Le dernier livre du chercheur Tarleton Gillespie (@TarletonG, blog), Custodians of the internet (Les gardiens de l’internet, 2018, Yale University Press, non traduit) livre une plongée très documentée dans le monde de la modération des plateformes des grands réseaux sociaux… et offre bien des prises pour comprendre les enjeux ce débat récurrent sur les règles et le droit qui doivent présider nos échanges en ligne.

La modération – cette invitation à la pondération, à trouver les bonnes règles d’échanges et de débats en ligne – désigne souvent cette capacité à gérer les communautés d’utilisateurs, le public (« l’ensemble de ceux qui sont affectés par les conséquences indirectes de transactions qu’il est jugé nécessaire de veiller systématiquement à ces conséquences », disait John Dewey dans Le public et ses problèmes) est une préoccupation centrale depuis le début du web. Des premiers forums aux listes de discussions sur Usenet, les communautés en ligne ont toujours eu besoin qu’on prenne soin d’elles, que ce soit en développant des formes de gouvernance pour les protéger, des procédures claires et démocratiques d’usages, ou en trouvant les modalités pour traiter les préjudices et infractions. Les plateformes n’échappent pas à ces règles ni à ces débats.

La modération est le coeur du travail des plateformes

Pourtant, les grandes plateformes comme les médias sociaux se présentent foncièrement comme « ouvertes, impartiales et non interventionnistes ». Neutres et universelles, elles fondent leur légitimité sur leur capacité à relier les gens et s’affirment comme les parangons de la liberté d’expression. Ce n’est pourtant pas le cas explique pas-à-pas le chercheur. Au contraire, la modération est le coeur d’un travail invisibilisé. La modération nécessite beaucoup de travail et de ressources pour traiter les plaintes, analyser les contenus, les évaluer, imposer les décisions, répondre aux contestations… « La modération façonne les plateformes » : elle est au coeur de leur proposition de valeur et au fondement de l’essentiel du travail des équipes qui les conçoivent. Les règles et procédures s’imbriquent dans la technique et dans leur architecture institutionnelle. « Les plateformes de médias sociaux se présentent comme des services universels adaptés à tout le monde », alors que ce n’est pas le cas. La modération se cache, mais elle se cache plus à certains utilisateurs qu’à d’autres.

Le problème est que la modération est difficile, car elle consomme beaucoup de ressources, car elle nécessite de faire des distinctions sur des contenus difficiles à catégoriser, parce que les normes ne sont pas toujours faciles à définir et parce qu’un échec peut engendrer suffisamment d’indignation pour occulter les millions de petites victoires qu’elle réalise chaque seconde. La modération est toujours imparfaite par nature et est toujours remise en cause à chaque appréciation, explique Tarleton Gillespie. Elle ne vise pas seulement à « déterminer ce qui est inacceptable, mais à équilibrer l’infraction à son importance, à réconcilier des systèmes de valeurs concurrents, à créer une médiation difficile parce qu’elle interroge l’intention, à délimiter des frontières du goût ou du discours… et le tout depuis des inégalités structurelles de genre, de sexe, de race, de classe, de pouvoir, à étendre des obligations aux frontières nationales, culturelles, linguistiques… et à faire tout cela autour des questions les plus brûlantes du jour… » Toute règle bien intentionnée peut y être contournée. Les lignes claires ne le sont jamais : à partir de quand une image du corps humain passe-t-elle d’une image artistique, éducative ou salace ?


Image : Tarleton Gillespie présentant son ouvrage lors de la conférence Civil Servant Summit, via OpenTranscript.

La modération que proposent les grandes plateformes repose sur une vision très américaine de la liberté d’expression et impacte des utilisateurs ayant des valeurs et des normes culturelles très différentes. Au final, les stratégies de modération reposent sur des formes de compromis toujours inadaptées aux utilisateurs ayant des valeurs et des attentes très différentes.

La question de la modération et de la liberté d’expression que ces plateformes encadrent, délimitent et déterminent nécessite d’observer l’appareil de modération qu’elles ont développé. Pour Gillespie, la modération est le produit des plateformes de médias sociaux, et leur réglage détermine leur modèle économique.

Au début de l’internet, rappelle Gillespie, la modération a été assumée par les utilisateurs les plus actifs, producteurs de contenus, administrateurs de forums. Ils ont vite compris qu’une communauté nécessitait d’en prendre soin, même s’ils avaient des utilisateurs relativement homogènes qui partageaient le même souci de protection des forums dont ils participaient. Avec la massification des utilisateurs et leur diversification, le travail de modération est devenu plus compliqué, plus important… ce n’était plus un travail commun, mais un service qu’on demandait à la plateforme et à ses administrateurs.

Pour Gillespie, la modération n’est pas un aspect accessoire du travail que réalisent les plateformes. Elles ne sont pas des plateformes sans modération, sans règles de distribution des interactions et des contenus. Par nature, elles transmettent ce que nous publions pour constituer ce que nous voyons. Les plateformes choisissent en permanence et en continu. Tout est conçu et orchestré. Twitter par exemple réunit des individus indépendants avec leurs audiences, coordonne leurs interactions selon les règles que la plateforme met en place et prélève ses honoraires (sa rente) sous forme de données qu’elle monétise.

Des origines de la modération

Gillespie rappelle que dès l’origine, les modérateurs ont adopté une posture non interventionniste. La nétiquette ou les règles de communauté de Geocities invitaient les utilisateurs à être leurs propres modérateurs. Mais la répétition incessante de ces règles et valeurs montrait aussi leurs limites intrinsèques… Autour des années 2000, les quelques affaires de poursuites juridiques sur des sujets de diffamation ou de diffusion de contenus illicites ne s’en prenaient pas tant à l’utilisateur qu’au fournisseur de service ou de contenu. Pourtant, pointe très justement Gillespie, les discours de haine, l’homophobie, les violences à l’égard des femmes… s’implantaient déjà très bien dans ces environnements qui proclamaient une utopie de la participation égalitaire, sans préjugés ni hiérarchie.

Peu à peu, les intermédiaires ont été encouragés à intervenir. La jurisprudence a fourni aux fournisseurs d’accès, aux moteurs de recherches, aux hébergeurs et éditeurs un cadre d’intervention, leur permettant d’intervenir selon les termes qu’ils choisiraient tout en se proclamant neutres pour éviter les obligations qu’ils préféraient ne pas respecter. Comme on le trouve encore dans nombre de CGU, les plateformes s’arrogent le droit de supprimer utilisateurs ou contenus, mais pas la responsabilité qui repose sur des infractions qui ne sont pas de leurs faits. Pour Gillespie, les politiques ont privilégié le droit des fournisseurs au détriment de l’intérêt du public. Le droit européen illustre bien cela : les plateformes ne sont pas responsables de ce que les utilisateurs affichent ou partagent, tant qu’ils n’ont aucune connaissance réelle du caractère illégal ou illicite des contenus et doivent se soumettre aux injonctions de justice voire de police. D’un autre côté, les plateformes ont des modèles commerciaux qui dépendent de la publicité depuis les données générées par les utilisateurs… ce qui les incite à faire la chasse aux contenus « troublants » (enfin pas tous, certains plus que d’autres assurément). La surveillance des contenus a été intégrée comme un moyen de faire la promotion de son image publique pour attirer des utilisateurs et pour protéger ses revenus publicitaires.

Les plateformes de médias sociaux sont des intermédiaires : « elles servent d’intermédiaires entre des utilisateurs qui parlent et ceux qui pourraient vouloir les entendre ». Pour Gillespie, nous sommes là dans un espace qui se situe entre d’un côté les canaux de communication interpersonnels de confiance traditionnels, comme le téléphone ou la poste, qui doivent délivrer un contenu sans le surveiller à la manière d’un service et de l’autre des canaux de communication éditorialisés (sur le modèle de la presse, de la télé…) qui font une sélection pour nous. Avec les plateformes, nous avons affaire à une troisième catégorie, hybride des deux précédentes, qui entretient la confusion entre fiabilité et éditorialisation. En basculant à une éditorialisation algorithmique plutôt que seulement antéchronologique (à la manière des blogs ou le dernier billet vient en tête), les plateformes sont passées « d’une fourniture de contenu pour la personne qui publie à la fourniture d’un service pour les personnes qui accèdent à ces contenus ». La promesse d’impartialité des plateformes est à double sens : elles se présentent comme impartiales en prétendant ne pas intervenir et elles se veulent impartiales dans leur manière d’intervenir.

L’octroi d’un monopole à une compagnie de téléphone s’est accompagné d’obligations : comme celle de servir tous les utilisateurs. L’octroi d’une licence de radiodiffusion également avec des obligations sur les programmes. Les plateformes, elles, ont le droit sans la responsabilité. Et cette ambivalence hante les limites de la modération, insiste Gillespie. Sur les plateformes, la responsabilité incombe à l’utilisateur, comme le montrent les conditions générales d’utilisation qui sont le plus souvent des listes d’interdictions et de limites.

Comment définir ce qui est interdit ?

Gillespie interroge rapidement le sens des interdictions et limites. Par exemple, souligne-t-il avec beaucoup d’à-propos, l’interdiction des représentations de la violence est toujours jugée comme étant un moyen de décourager la violence elle-même, alors que ces représentations servent aussi de moyens pour les dénoncer.

« Le harcèlement n’est pas une aberration, mais une condition des médias sociaux ». Toutes les plateformes interdisent les discours de haine dans leurs CGU, qui sont assez semblables d’une plateforme l’autre parce que malgré leurs différences, « les plateformes sont en concurrence sur les mêmes positions ». Elles réagissent de manière similaire, car partagent les mêmes positions et tactiques. Reste que ces règles se redéfinissent constamment, preuve que, contrairement aux discours tenus, elles sont poreuses aux pressions extérieures. Elles délimitent par transformation successive un cercle de prohibition et de justification qui s’auto-renforce. Reste qu’il y a de réelles différences entre les règles dont ces entreprises se dotent et les décisions qu’elles finissent par prendre. Le gros problème, c’est que les catégories prohibées, parce qu’elles reposent toujours sur une appréciation, comme le sexuellement explicite, le vulgaire ou l’obscène, la haine… ne ferment pas la contestation, mais l’attisent !

La modération n’est pas un problème de taille, sur les plateformes géantes, c’est un problème différent. Pour les plateformes mondiales, la modération est devenue industrielle et cette industrie est bien loin de l’artisanat des BBS. Pour se faire, les plateformes ont toutes recours à des outils de détection automatique. Mais si ces techniques promettent d’éviter les biais humains sous des règles précises, elles introduisent par nature leurs propres biais. Alors que le public s’attend à ce que les plateformes modèrent de manière juste et cohérente, cette cohérence est introuvable. « Il n’y a pas de choix qui ne soit pas politique pour quelqu’un ». « Toute modération, surtout lorsque le processus est opaque, reste sujette à interprétation et à critique » et ce d’autant quand la révision éditoriale est liée à l’impératif de protéger non seulement les utilisateurs, mais également une marque. Pour les plateformes, le défi est de savoir comment mettre en oeuvre un tel processus de modération à si grande échelle.

La modération, une imbrication de techniques

La modération repose sur une imbrication de techniques. Il y a d’abord le signalement par d’autres utilisateurs. Ce signalement fait penser que les plateformes écoutent leurs usagers. En réalité, explique Gillespie : « cela permet aux plateformes de conserver le pouvoir de modérer à leur guise, tout en leur permettant de faire croire que c’est à la demande des utilisateurs, puisque le suivi d’un signalement est tout entier à la discrétion de la plateforme ». Pour Gillespie, le problème de cette « auto-modération » repose sur l’absence d’homogénéité des utilisateurs, qui ont des valeurs, des croyances, des cultures différentes… Bien souvent, ces signalements ne proposent pas d’espace d’expression pour en expliciter la raison et quand c’est le cas, les catégories proposées sont relativement étroites. On ne peut pas voir qui ou combien de personnes signalent un contenu et il est impossible de se raviser. Ces centaines de milliers de signalements sont mis en file d’attente pour être traités ensuite par des machines ou des humains. Certaines catégories de signalement (quand elles existent) sont prioritaires (notamment les contenus sexuels impliquant les mineurs, le terrorisme, etc.), soulignant par là qu’il y a une hiérarchie invisible des modérations.

La plupart des plateformes offrent peu d’explications sur ce qu’il se passe une fois qu’un contenu a été signalé. La manière dont il est réceptionné, trié, agrégé, traité et résolu demeure parfaitement opaque. Autre problème bien sûr, alors que ces plateformes ne cessent de nous parler de communautés, le signalement demeure un mécanisme fondamentalement individualisé. Même si le signalement est souvent instrumentalisé de manière coordonnée par des groupes pour atteindre des objectifs sociaux et politiques (et donc qu’il peut-être utilisé de façon abusive), le mécanisme ne montre pas aux utilisateurs qui sont ceux qui utilisent ces modalités de signalement.

La détection automatisée en ses limites

À ces systèmes de signalement s’ajoutent des systèmes de détections automatisés. Ici, insiste Gillespie, la détection automatisée est diversement efficace selon les objets à détecter sur lesquels elle a été entraînée. Si certains systèmes d’analyses d’images sont très efficaces, leurs limites est de rester très spécifiques, très spécialisés. Ces techniques permettent surtout de résoudre le problème de l’échelle de la modération, c’est-à-dire de passer à une échelle industrielle, d’autant plus nécessaire quand on parle de millions de contenus. Ce que permet également cette automatisation c’est de « détacher le jugement humain » de la tâche à réaliser. Le grand problème c’est qu’ils sont diversement efficaces selon les objets qu’ils ont à traiter. S’ils sont relativement fiables pour la détection d’image, ils ont plus de mal à discerner les méandres du sens des textes et notamment à identifier un contenu ou un comportement offensant. Leurs limites fondamentales reposent sur le manque de contexte qui limite leur compréhension, les tactiques évasives des utilisateurs et la nature fluide de l’infraction. Dans de nombreux cas, la détection automatique produit trop de faux positifs. D’où le fait que les plateformes associent leurs techniques de détection automatique à des formes de supervisions éditoriales humaines, lentes et coûteuses.

Bien sûr des techniques basiques existent, comme le filtrage de certains termes répertoriés sur des listes noires, mais les résultats de ces techniques simples de recherche de correspondances ne sont pas très probants. En 2009, YouTube a ainsi utilisé un filtre à blasphèmes baptisé « Filter W*rds ». Des automates de modération ont aussi été utilisés sur Reddit, Slack ou Instagram… Mais la censure a été trop forte. Ces outils rudimentaires ont d’autres défauts : ils ne savent pas identifier un terme qui n’a pas déjà été identifié. Ces listes noires finissent par être facilement contournées par des techniques d’obfuscation élémentaires comme d’introduire des fautes d’orthographe ou des caractères étranges.

Gillespie souligne que la pornographie infantile est à peu près le seul cas où les plateformes ont des obligations légales strictes, et où elles ne subissent quasiment aucune controverse politique. D’où le fait qu’elle ait pu s’automatiser plus facilement, notamment via un outil développé dès 2009 par Microsoft, PhotoDNA, proposé gratuitement aux grands fournisseurs de contenus en ligne. L’outil est relié à une base de données d’images pédopornographiques gérée par le Centre national pour les enfants disparus et exploités (NCMEC)… Les nouveaux signalements d’images par les plateformes sont transmis au NCMEC pour évaluation par des humains qui intègrent ou non ces images dans leur base.

Fin 2016, Microsoft, YouTube, Facebook et Twitter se sont associés pour développer et partager une base de données de contenus terroristes identifiés afin de faciliter leurs pratiques de modération automatisée. Mais ces techniques sont surtout fiables pour identifier du contenu déjà signalé pas pour identifier de nouveaux contenus. Le rêve de la modération automatisé est pourtant de pouvoir identifier de nouveaux contenus sans avoir besoin de modérateurs humains. Les filtres automatiques utilisés pour détecter des images liés à la nudité par exemple sont à la recherche de zones de couleurs proches de celles de la peau… On comprend vite qu’elles peuvent être trompées et que repérer une image avec de la peau nue ne signifie pas qu’elles sont inacceptables. Beaucoup d’outils associent aussi le paratexte d’une image (commentaires, métadonnées, #hastags…). Pour la recherche de contenus haineux, les logiciels mettent l’accent sur des mots spécifiques ou sur la proximité entre certains mots. Certains utilisent également des informations sur les comptes émetteurs et les informations de profils ou leurs comportements passés.

Les efforts et moyens investis dans le domaine de la modération automatisée sont colossaux, tant l’enjeu est important. Le meilleur algorithme de détection de la nudité affiche un score de 94 % (et un taux de faux positif de 5 %) : c’est-à-dire qu’il parvient à identifier presque toutes les images de nus qui lui sont soumises tout en identifiant à tort une image sans nus sur 20. En 2015, Twitter a acheté Madbits une entreprise de détection d’images à risque (porn, violence, gore…) avec un taux de précision de 99 % et un taux de faux positif de 7 %. Ces outils ont fait des progrès indéniables… Mais quand il s’agit de culture, d’expression, de liberté… quelques erreurs, quelques faux positifs peuvent vite devenir un réel problème, selon que ces erreurs sont systémiques ou anecdotiques. Le problème est que dans nombre de cas qui n’ont cessé de déchainer les chroniques, les problèmes étaient graves, à l’image de visages de noirs qualifiés de gorilles… qu’ils sont souvent systémiques et peinent à être corrigés (comme la pruderie de FB, ses biais de genre ou son incapacité à distinguer certaines oeuvres d’art). Pour Gillespie, l’efficacité vient questionner l’équité et la représentation. Ces outils ont pour vocation d’identifier la pornographie, mais ils identifient surtout la nudité. Le succès d’un outil d’apprentissage automatique dépend de la façon dont il apprend à reproduire les distinctions qu’on lui apprend. C’est une approche par nature conservatrice. Certes, les plateformes accumulent toujours plus de données pour permettre à leurs outils d’apprendre, mais plus de données ne signifie pas nécessairement des données plus variées. À terme, le risque est surtout de voir se développer des angles morts et de renforcer les priorités existantes. Le machine learning est toujours appelé à remplacer l’évaluation humaine, mais il ne peut être développé que sur la base d’une évaluation humaine antérieure. Pour Gillespie, c’est là une course sans fin, où, à mesure que les outils progresseront, progresseront aussi les demandes de modération qui nécessiteront donc toujours une surveillance et un jugement humain. « Ces outils sont efficaces pour gérer des cas simples, identifier les instances et les modèles pour une enquête plus approfondie et noter les utilisateurs sur leurs comportements antérieurs ».

Les éboueurs du web : le défi de l’interprétation

Gillespie s’intéresse bien sûr à la principale solution de modération : la modération humaine.

En 2017, le Guardian a publié un ensemble de documents ayant fuité de Facebook, les Facebook files. On y trouvait notamment un guide pour les modérateurs humains. Car si une machine a des difficultés à apprécier un contenu, c’est tout autant le cas d’un humain. Un opérateur qui scanne et juge un contenu en quelques secondes a besoin d’instructions pour juger. En quoi consiste exactement une « violence sexuelle » ? Qu’est-ce qu’un discours de haine ? Dans ces documents, ont découvre via les exemples qu’un texte tel que « Pour claquer le cou d’une salope, veillez à appliquer toute votre pression bien au milieu de sa gorge » est une publication que Facebook considère comme acceptable. Pour Gillespie, ces documents regorgent d’exemples de ce type… qui montrent la difficulté à tracer des lignes claires dans les contenus répréhensibles. « Quand la modération passe des principes aux détails, force est de constater que plus rien ne paraît noble ». Les contenus et les comportements que les nettoyeurs, ces éboueurs du net, doivent prendre en compte sont certes d’une laideur sans nom, mais aussi variés, souvent ambigus pour échapper justement à une interprétation claire. Il n’y a pas de moyens simples pour faire ces jugements. Ils peuvent parfois être difficiles à défendre, certes, mais quelqu’un doit finir par les prendre.


Image : exemple d’explications données par FB à ses modérateurs, révélée par le Guardian qui explique quand les appels à la violence devraient être interdit (en rouge) et quand ils sont autorisés (en vert). Ainsi, il est interdit de dire « Que quelqu’un bute sur Trump ! », mais autorisé de dire « Allons tabasser des gros lards ! ». Le journal britannique avait également proposé un petit jeu en ligne pour permettre à chacun d’éprouver les règles de modération d’images sur Facebook.

Au final, cette modération humaine est complexe et difficile. Son instanciation pose plus de questions qu’elle n’en résout. Quelles formes de discours sont interdites et quelles formes de discours ne le sont pas ? Pour qui le discours de haine est-il interdit – pour qui ne l’est-il pas ? Le négationnisme par exemple est autorisé, mais géobloquée pour certains pays qui l’interdisent. Quelles formes de discours passent à travers les fourches caudines des systèmes de modération ?

La plupart des plateformes ont une petite équipe qui définit la stratégie de modération, en ordonne les techniques, l’infléchit ou la durcit, la supervise, définit les règles, supervise leur application, statue sur des cas difficiles ou chauds, révise les politiques… et délèguent à des prestataires extérieurs la réalisation des prestations de modérations. Ces équipes bien souvent ne sont pas joignables. Ce sont un petit nombre de gens qui imposent des règles qui affectent des millions d’utilisateurs. Les entreprises de sous-traitance de la modération sont nombreuses. FB sous-traite sa modération à plusieurs milliers de personnes répartis sur plusieurs continents. Lors d’une annonce récente, Zuckerberg a promis d’ajouter 3000 modérateurs aux 4500 qu’il employait déjà… Mais parlait-il seulement de ceux directement embauchés par FB ou de tous ceux mobilisés via des sous-traitants extérieurs ?

Ce travail des éboueurs du net est éloigné, distancié, au propre comme au figuré, du reste du travail de l’entreprise. Un modérateur de contenu travaillant pour Google estimait évaluer 15000 images par jour ! Comme l’explique Sarah Roberts (@ubiquity75), dans un livre à paraître Derrière l’écran : la modération de contenu dans l’ombre des médias sociaux, les responsables de plateformes souhaitent que le processus de modération demeure opaque. La justification de cette opacité repose sur une vieille crainte de la technique : faire que les utilisateurs ne connaissent pas les règles afin qu’ils ne puissent pas les contourner. Mais elle vise aussi à minimiser l’impression de contrôle. « L’opacité cache non seulement le fait de choisir, mais aussi les valeurs qui motivent cette sélection ». Or, rappelle Gillespie, ne nous y leurrons pas : les égouts du web sont évalués pour leur valeur potentielle en tant que marchandise. Le choix se fait selon une balance qui évalue son potentiel de viralité d’un côté et sa dangerosité de l’autre.

Gillespie évoque d’autres briques de ces dispositifs de modérations, comme les community managers, qui ne servent pas tant des objectifs de modération, que de fusibles pour gérer des conflits, faire remonter des problèmes techniques ou des informations… et surtout sont là pour valoriser et faire accepter les politiques des entreprises.

Les utilisateurs, piètres régulateurs dans la division du travail de la modération

Enfin, il y a bien sûr le rôle des utilisateurs eux-mêmes, à qui on demande de plus en plus de travail de police. Les utilisateurs sont transformés régulateurs bénévoles. Cette force de travail est invitée bien sûr à signaler du contenu… Reste que seule une minorité d’entre eux participe, notamment les plus motivés, ce qui pose des questions sur la nature de cette motivation. Les biais des signalements faits par les utilisateurs sont multiples : outre qu’ils peuvent masquer des finalités particulières, l’utilisateur trouve toujours que son propre contenu semble toujours plus acceptable que celui des autres ! Dans une analyse des signalements de harcèlements faits sur Twitter, une majorité des signalements répertoriée s’est révélée fausse, inexacte ou délibérée. L’autre moitié des signalements provenaient majoritairement de gens préoccupés par le sort de victimes que des signalements émis par les victimes elles-mêmes. Le signalement semble bien souvent le plus perméable à beaucoup de relativisme. Si certaines plateformes accordent des pouvoirs de signalement spécifiques à des organisations avec lesquels elles collaborent (association de protection de l’enfance notamment, service de police, organisation de santé, médias spécialisés dans la vérification des faits…), le problème de cette délégation et de son financement reste entier. Au final, le signalement n’est pas plus fiable que la modération automatique ou que la modération humaine. Toutes introduisent leurs propres biais qui se cumulent plus qu’ils ne se résolvent les uns les autres.

Gillespie nous montre combien vaste et faillible est le chantier de la modération des contenus. Une division ou plutôt une coordination du travail y apparaît néanmoins. La qualification des contenus repose plutôt sur les producteurs de contenus qui sont le mieux à même de l’apprécier. Le signalement des abus relève plutôt du travail des victimes. Les litiges spécifiques remontent des endroits où ils ont lieu, selon leurs particularités culturelles. Et le règlement des affaires les plus difficiles incombe à la direction de la société, qui maintient la cohérence globale selon les modalités de modération spécifiques et locales. La modération consiste à transformer un jugement humain de valeur en instructions modulaires pour accélérer le travail de chacun des opérateurs chargés de cette longue chaîne de surveillance. Cette chaîne complexe rend la compréhension des décisions difficiles et rend l’amélioration du processus difficile également. Qu’est-ce qui explique une plus grande sévérité d’un coup sur certains types de contenus ? Le fait que plus de contenus de ce type aient été postés ? Le fait que les utilisateurs les aient plus signalés ? Le fait que les équipes de modération d’un sous-traitant aient changé ? Le fait d’un contenu viral très médiatisé qui a modifié l’appréciation des utilisateurs ? Le système d’évaluation est en constante évolution… alors que « les échelles d’interventions sont irréconciliables » estime Gillespie. Les interventions prises à un niveau se heurteront toujours à l’expérience vécue à un autre niveau… Les tensions sont difficilement solubles, pointe le chercheur. Que ce soient celles entre l’objectif des plateformes pour des règles simples, claires et universelles et l’hétérogénéité des valeurs et des croyances des utilisateurs.

La révolte : cette force qui fait bouger les règles

Les questions de modérations ne sont pas simples : on glisse vite d’une condamnation morale à une condamnation politique. Gillespie évoque l’exemple des controverses sur l’allaitement. « Les conflits autour de ce sujet sont l’un des plus anciens différends sur les politiques des plateformes et l’un des plus persistants ». C’est à partir de 2007 que naissent les différends sur les images de femmes en train d’allaiter, quand FB commence à les supprimer et à suspendre des comptes d’utilisatrices qui ont posté ces images. Ces suspensions sont parfois accompagnées d’un message assez vague qui invite à prendre contact avec FB sans qu’il soit facile d’en trouver la modalité. Beaucoup n’indiquent même pas quelle image est en cause. Le problème est que la norme que semble appliquer FB apparaît largement incompréhensible quand bien souvent le sein d’une mère est caché derrière la tête d’un enfant. Or, les victimes de cette censure se retrouvent, se contactent et articulent une critique des politiques de modération de Facebook (« Ce que vous permettez, vous le promouvez », ou, comme le disait très bien la cofondatrice de Flickr, Caterina Fake : « ce que vous tolérez indique ce que vous êtes vraiment »). Pour les femmes victimes de cette censure, le soin maternel est sexualisé par la politique de classement des images de FB dans un amalgame intolérable. Confronté à des critiques grandissantes, FB a essayé diverses tactiques, notamment en tentant de rester ferme sur les règles énoncées, en tentant d’expliquer qu’il ne condamnait pas l’allaitement, mais la nudité qui l’accompagnait. La simplicité discursive de la règle (« pas de tétons ! ») rendait encore plus facile la critique quand nombre de ces photos n’en montraient pas. C’est bien la révolte des usagers qui va conduire FB a revoir sa politique, montrant que celle-ci ne cesse d’évoluer dans le temps, selon le contexte, l’actualité… et pointant par là même combien la modération, même fermée derrière l’opacité des plateformes, demeure une discussion publique. Il n’empêche qu’en 2012, la question de l’allaitement redevient polémique, avec la campagne Free the Nipple !, une campagne féministe contre l’interdiction des images de poitrines féminines soulignant combien celle-ci pénalise la visibilité des femmes. Là encore, la campagne médiatique fera bouger un peu les lignes par une révision des CGU de FB qui s’ouvrira aux images partagées à des fins médicales ou liées à l’allaitement. En 2015, la campagne de Courtney Demone, un homme en court de transformation en femme, qui décide de publier chaque jour une photo de sa poitrine en pleine métamorphose pour savoir à partir de quand elle sera censurée et donc à partir de quand FB la considérera comme une femme et non plus comme un homme. Pour Gillespie, ce sont les règles de modération elles-mêmes qui, en établissant une ligne rouge, incitent les gens à les préciser. Comme il le dit très bien « la modération est un espace de contention politique ». Les décisions qui président aux politiques de modérations sont prises derrière des portes closes et se construisent derrière les infrastructures fermées des plateformes elles-mêmes, alors qu’elles adressent la société dans son ensemble. Du fait de leur importance croissante dans la vie des gens, les plateformes sociales sont devenues le terrain d’une lutte politique et culturelle. Les utilisateurs doivent se battre contre les mécanismes et la gouvernance des plateformes qu’ils ne sont pas conviés à discuter.


Image : Courtney Demone, via Mashable.

Cet exemple rappelle également que la modération est une négociation continue, jamais statique. Que les valeurs que les plateformes affichent contreviennent toujours à d’autres. Reste que cette révolte est longue et lente, tant les utilisateurs ont peu de prise sur les politiques unilatérales décidées par les plateformes. Il a fallu une décennie de désobéissance et de combats pour faire évoluer (timidement) FB sur la question de l’allaitement !

Des plateformes qui se veulent démocratiques sans processus démocratiques

Gillespie est intervenu récemment sur les changements de politiques de Tumblr, qui a longtemps été l’une des plateformes les plus permissives sur les contenus en terme de nu et de sexuellement explicite, jusqu’à ce que, pour convenir aux règles très strictes d’acceptation de l’Apple Store, Tumblr décide fin 2018 d’abaisser ses critères d’acceptation en la matière. Tumblr a lancé un système de détection automatique des contenus qui manquait visiblement d’entraînement et qui a censuré un peu tous les contenus. Pour le dire autrement, la modération n’est jamais uniquement morale, alors qu’elle se présente ainsi, mais toujours politique. Bloquer le terme #gay pour masquer la pornographie réduit un terme aux sens multiples (politiques, sociaux, émotionnels…) à son seul usage pornographique. Bloquer un tel terme invisibilise une communauté déjà trop souvent marginalisée d’innombrables autres manières.


Image : En 2015, le photographe Allemand Olli Waldhauer poste une photo sur Facebook, très partagée et très vite censurée par la plateforme du fait qu’on y trouve une femme aux seins nus alors que l’homme tient une pancarte avec un slogan raciste. Une illustration très parlante des limites de la censure automatisée, via Presse-Citron.

Gillespie pointe très bien le problème démocratique des plateformes. Les fournisseurs de services privés n’ont aucune obligation légale à permettre à leurs utilisateurs d’exprimer librement leur opinion et n’ont aucune obligation à édicter les règles de censure ou de restriction qu’ils désirent, quand bien même elles peuvent être fantaisistes ou injustes. Alors que pour un utilisateur, être suspendu ou banni peut avoir de nombreuses conséquences bien réelles, comme des impacts sur sa vie professionnelle, rendre difficile l’accès à d’autres services ou à son cercle de contacts.

La modération est partout rappelle enfin Gillespie. Discrète. Dans l’autocomplétion nombre de suggestions sont enlevées pour de bonnes comme pour de mauvaises raisons. L’application de traduction de Google refuse de traduire certains termes grossiers, quelle que soit la langue. L’iPhone d’Apple ne corrige pas automatiquement certains gros mots mal orthographiés voir parfois des mots sensibles, mais non obscènes comme avortement ! Des utilisatrices de TripAdvisor ont noté qu’il était impossible d’utiliser les mots féministes ou misogynes dans les commentaires. Des femmes ont critiqué Instagram pour avoir bloqué le mot #curvy (ronde) ainsi que le mot #goddess (déesse), mais pas le mot #god (dieu)… Sur Amazon, en 2009, des utilisateurs se sont rendu compte que des livres gay et lesbiens qui se vendaient pourtant bien n’étaient pas référencés sur les listes des meilleures ventes ! Sans compter les multiples histoires de censure nationales qui font disparaître certains services ou pages d’une pays l’autre (le moteur de recherche de Microsoft, Binge, n’envoie aucune réponse si vous faites une recherche « adulte » depuis la Chine et plusieurs pays du Moyen-Orient)… La censure est variable. Elle est éminemment politique.

Quand les plateformes refusent de servir les résultats et offrent une page blanche, les utilisateurs comprennent qu’il se passe quelque chose, qu’une intervention est rendue visible. Mais combien nous sont invisibles ?

Gillespie offre peu de pistes de réponses à la question de modération. En le lisant, on pourrait penser que l’avenir de la modération pourrait être personnalisé selon les profils, au risque d’enfermer plus avant l’utilisateur dans une bulle. L’utilisateur pourrait signifier ses préférences de modération selon différents degrés… une forme de « modération by design ». Mais, comme il le reconnaît, cette solution est plus que risquée. Si j’ai aimé mon église évangélique locale, l’algorithme pourrait décider d’adopter une modération stricte et masquer un nu, même artistique… Si mes données d’activités montrent que je n’aime pas les contenus violents, les plateformes doivent-elles s’adapter ? Le problème est que le nombre de critères à prendre en compte peut-être innombrable. En fait, le risque est plutôt que les algorithmes décident sans l’avis ou le consentement de l’utilisateur. Et que même cet avis ou ce consentement est limité aux innombrables micro-choix de la catégorisation des contenus, qui dépendent justement de catégorisation stricte plus que d’échelles de valeurs.

C’est sur la question algorithmique que se termine l’ouvrage du chercheur et notamment sur la question des fake news. Ces plateformes nous abandonnent sans objets stables, sans corpus commun à partager… Nous n’accédons qu’à un bout de l’ensemble, sans plus aucune version commune, sans plus aucune version de référence. Les plateformes ne sont pas plates. L’enjeu de la modération n’est pas seulement celui de la censure, c’est-à-dire l’invisibilisation de ce qui peut en être ôté, mais également la question de la mise en supervisibilité de certains éléments au détriment d’autres.

À la fin de son ouvrage, Gillespie dresse une rapide série d’améliorations possibles : plus de modérateurs humains. Des modérateurs humains plus experts. Des modérateurs humains plus diversifiés. Plus de transparence dans le processus. De meilleurs outils pour les utilisateurs pour bloquer les mauvais acteurs. De meilleurs logiciels de détection. Un engagement plus empathique avec les victimes. Faire que les plateformes travaillent plus avec des experts formés à la haine et à la violence sexuelle. Faire que les plateformes soient plus à l’écoute des pressions sociales et qu’elles aient des obligations légales plus fortes, pas seulement à modérer, mais aussi dans les contreparties liées aux défauts de modération dans lesquelles elles butent. Mais Gillespie reconnaît en même temps qu’il les fait que ces propositions sont insuffisantes.

La modération est opaque, mais ce n’est pas accident. L’enjeu estime Gillespie consiste à rendre la modération plus visible, à expliquer pourquoi l’on voit ce que l’on voit. Nous avons besoin de lentilles collectives pour comprendre ce qu’il se passe dans ces espaces, alors que nombre de nos actions sont individualisées et individualisantes. On devrait pouvoir choisir le niveau de curation auquel nous souhaitons accéder, c’est-à-dire avoir la main sur les préférences. Le harcèlement et la haine profitent de la popularité, cette métrique toxique qui est au coeur des modèles économiques des plateformes… Pourtant, le chercheur finit par jeter toutes ces solutions. Aucune de ces suggestions ne réglera le problème. Il revient alors sur le phénomène des fake news qui a pollué la campagne présidentielle américaine en 2016, mais aussi bouleversé le Myanmar, le Kenya… Le terme de fake news a effacé les distinctions nécessaires entre propagande, surestimation, théories du complot, sensationnalisme, mensonges, désinformation, clickbait… Par leurs algorithmes, les plateformes ont facilité la circulation des mensonges, de la haine, favorisé la polarisation, le journalisme le plus populaire par rapport au plus substantiel. « Nous avons vendu la promesse de la culture de la participation, pas au plus offrant, ni aux marques établies ou aux acteurs institutionnels, mais à n’importe qui ».

Ces plateformes fonctionnent désormais à une échelle et depuis des attentes qui demandent, par nature, de plus en plus d’automatisation… Alors que les décisions que les plateformes devraient prendre, notamment en matière de modération, relèvent précisément de décisions que ne devrait pas être automatisées et qui ne peuvent peut-être pas l’être, car elles relèvent de jugement de valeur, de sens, d’importance et d’appréciation de l’offense. Les plateformes facilitent, amplifient, exacerbent le harcèlement coordonné, la propagande fondée sur la popularité, la polarisation, l’automatisation des relations… Les plateformes considèrent la modération comme un problème à résoudre de manière privée et réactive. Or, supprimer le contenu ne suffit plus. FB et Twitter n’ont jamais promis de délivrer des informations fiables. Reste qu’ils doivent désormais intervenir.

Même si la modération devient de plus en plus compliquée et coûteuse, les attentes des utilisateurs sont devenues non plus indulgentes, mais plus exigeantes. Pour y répondre, souligne Gillespie, il va falloir faire monter la participation des utilisateurs dans la gouvernance, dans la prise de décision, dans la conception collaborative et dans l’orchestration des valeurs collectives… Gillespie rappelle qu’en 2012, Facebook avait demandé à ses utilisateurs de voter sur une politique sur laquelle ils avaient un droit de véto si 30 % des utilisateurs qui participaient le décidaient. Le vote de 2012 n’a recueilli que 0,038 % de participation. Facebook a modifié sa politique et a fait disparaître l’idée de vote et de droit de véto des utilisateurs. Au lieu de considérer cela comme un échec, FB aurait pu décider d’améliorer le processus, de travailler à sa gouvernance avec les utilisateurs au-delà du vote. Les plateformes pourraient développer des processus pour solliciter les avis de ceux qui les utilisent… Mais n’est-ce pas déjà ce qu’elles font en regardant et mesurant en continu ce que font leurs utilisateurs, en les bombardant de test A/B ? Le problème, c’est que la démocratie, le vote, nécessite le débat, pas le silence. Que la délibération est une fonction qui ne se réduit pas à une instrumentalisation, bien au contraire. On innove bien plus pour servir la publicité et le ciblage que pour rendre les plateformes démocratiques… L’IA pourrait être utilisée pour comprendre ce que nous pensons de la pornographie et son rôle plutôt que pour l’identifier et la supprimer, pour nous aider à progresser plutôt que pour le contrôle. Plutôt que de nettoyer nos égouts, elle pourrait nous aider à grandir.

Les plateformes sont plus vastes, dispersées, sophistiquées, intriquées que les institutions qui pourraient les réguler. Qui a l’autorité suffisante pour obliger FB à devenir un « bon » FB ? C’est peut être à nous citoyens, d’être les gardiens des gardiens, d’être les surveillants des surveillants, assure Gillespie. Assurément, en tant qu’utilisateurs, nous devrions demander à accéder à des outils de gouvernance collective.

Que faire ?

Dans l’interminable débat sur la modération et la condamnation de la haine en ligne… on confond toujours plusieurs choses. La modération d’un côté et la condamnation de l’autre. L’enjeu n’est pas tant de donner plus de pouvoir de modération aux plateformes, mais qu’elles le fassent selon des règles claires, transparentes, discutées avec les utilisateurs eux-mêmes, le plus explicites possibles. Une plus grande possibilité de modération (de censure) offerte aux plateformes sociales nécessite aussi d’améliorer les contreparties offertes aux utilisateurs.

Confier plus de pouvoir de modération aux plateformes pose un double problème. Comme le souligne très bien la Quadrature du net, les acteurs privés n’ont pas la légitimité de traiter tous les signalements (c’est aussi le rôle de la police). De plus, il semble difficile de leur donner un blanc-seing sur le caractère licite d’un contenu, qui relève de l’autorité judiciaire. Deux acteurs particulièrement absents du plan d’action annoncé par le gouvernement. Déléguer les limites de la liberté d’expression aux plateformes et à leurs architectures techniques toxiques n’est pas une solution, même s’il est nécessaire de les confronter à leurs défaillances, notamment en terme de délais de réponses et d’accessibilité de solutions de signalements comme de plaintes.

Alors qu’on aurait pu attendre que dans la lutte des utilisateurs contre les plateformes, le gouvernement vienne en aide à ces derniers, c’est à l’inverse qu’on assiste : une alliance de la surveillance et du contrôle. Comme le pointe très bien l’infatigable Marc Rees, journaliste à l’excellent NextInpact, le projet de loi nous fait passer « d’une obligation de retrait du manifestement illicite à une obligation de retrait du possiblement illicite », un glissement qui ne sera pas sans conséquence sur la liberté d’expression. L’autre risque bien sûr est de condamner l’avenir en fermant toute alternative et en obligeant nombre d’acteurs à utiliser les outils mis en place par les grands acteurs du web, malgré leurs imperfections.

Reste la question de la condamnation. Le rapport « Ambition numérique » du CNNum (.pdf) de 2015, proposait l’idée d’un parquet spécialisé, numérique, permettant de recueillir les signalements et de les traiter plus efficacement, pas seulement d’ailleurs par la condamnation à des peines lourdes et parfois légitimes, mais aussi en faisant preuve de pédagogie par des notifications de rappelle à la loi provenant des autorités, des utilisateurs comme des plateformes. La prévention et la pédagogie semblent les grands oubliés des mesures annoncées.

Ce qui est sûr, c’est que les modalités pour améliorer les choses sont déjà là. L’arsenal législatif pour s’attaquer aux pires propos existe déjà. Le problème, depuis longtemps, c’est leur application, qui ne consiste pas tant à durcir les règles qu’à trouver les moyens de les appliquer. Et ce n’est pas en déléguant la police et la justice aux plateformes qu’on améliorera la démocratie et la qualité du débat public, surtout quand le problème n’est peut-être pas tant ce qui est interdit que les zones d’ombres et les frontières de ces interdictions.

Hubert Guillaud