Un an d'auto-hébergement

L’an dernier à cette période, j’étais à fond dans l’installation d’un serveur pour mon auto-hébergement. L’occasion de faire un petit bilan.

Au moment où j’écris ces lignes, j’ai lancé un dist-upgrade pour passer sur Stretch en mode Cyrille, c’est-à-dire sans sauvegarde : on ferme les yeux et on saute. Le suspense règne donc jusqu’à la fin du billet pour savoir si tout s’est bien passé auquel cas Debian sera soit du béton, soit de la merde (en informatique, on se doit d’être binaire, non ?).

Je me souviens comme je me suis plongé pendant 3 semaines non-stop dans l’aventure de la ligne de commande et de l’accès ssh pour monter les différents services dont j’avais besoin ou plutôt pensais avoir besoin : Tiny-Tiny RSS, Wallabag, GnuSocial, j’en ai un peu chié pour ces trois-là. J’ai travaillé les aspects sécurité en m’initiant à fail2ban, en sécurisant l’accès ssh et quelques autres fichiers de config. J’ai aussi appris à gérer mon nom de domaine, les renvois des services vers les sous-domaines, sécuriser les accès en https avec let’s encrypt.

Et puis après, j’ai ajouté quelques services faciles comme BoZon ou une ToDo list, mis en place les mises à jour de sécurité en automatique, configuré les envois de rapports vers ma boîte mail et surtout, j’ai ajouté le partage de fichiers pour les rendre accessibles de mes autres machines.

Bref, j’ai tout fait pour que ce petit boîtier se fasse oublier et remplisse sa fonction sans avoir à y mettre les mains tous les 2 jours. Chose que j’ai relativement réussi.

Pour ce qui est des services que j’utilise, finalement, c’est principalement et quasiment uniquement le lecteur de flux rss (c’était aussi la principale raison de l’installation d’un serveur) ; je n’ai pour le moment quasiment aucun autre besoin même si j’ai encore sous le coude quelques trucs à synchroniser, mais je n’ai pas encore trouvé la motivation de m’y pencher.

Par contre, le côté serveur de fichiers est beaucoup plus utile que ce que je pensais. Je ne regrette donc pas le temps investi et tout ce que j’ai appris même si cette année, j’ai d’autres occupations en vue pendant mon temps libre estival (familial plus que professionnel, être marié à une enseignante ne donne pas une véritable égalité sur la quantité de vacances), ce qui explique l’activité relativement faible sur mon blog.

Bon, on rigole mais la mise à jour se termine, je sais déjà que phpmyadmin ainsi que fail2ban ne se sont pas mis à jour correctement, ce qui n’augure pas le meilleur puisque mes services sont inaccessibles par contre le partage de fichiers fonctionne. À suivre…

EDIT (après quelques minutes de bidouillage) : fail2ban est désormais absorbé par le méchant systemd, du coup, il n’aime pas du tout qu’on garde les fichiers de config, ça aurait pourtant été pas mal de garder la configuration en place, va falloir que je me penche sur le nouveau fonctionnement. Sinon, il y avait le serveur Apache qui n’avait pas été redémarré peut-être à cause de l’erreur. Donc pour l’instant tout fonctionne, c’est l’essentiel, pour les détails, je verrai plus tard.

L’IRM pour lire des pensées complexes

En 2008, nous présentions les travaux de l’équipe de Marcel Just et Tom Mitchell, du Centre d’imagerie cognitive du cerveau de l’université de Carnegie Mellon, qui avait réussi à démontrer la capacité de l’IRM à lire des pensées simples en analysant les zones cérébrales activées lorsqu’on pense, par exemple, à un objet comme un marteau. Notre article de l’époque se terminait en signalant que les chercheurs allaient maintenant se pencher sur des pensées plus complexes, et par la phrase « réponse dans quelques mois ». Bon, en fait, ça a pris près de 10 ans, mais l’équipe de Just semble effectivement avoir franchi une nouvelle étape, présentée par le site Next Big Future (qui reprend en fait le communiqué de presse de l’université Carnegie-Mellon).

Selon Marcel Just, « l’une des grandes avancées du cerveau humain est la capacité de combiner les concepts individuels en pensées complexes, de penser non seulement à des « bananes », mais aussi à «J’aime manger des bananes en soirée avec mes amis». »

Pour arriver à modéliser de tels concepts, l’équipe a isolé un « alphabet » de 42 structures neurales correspondant à certaines significations sémantiques, comme les notions de « personne, d’environnement, de taille, d’interaction sociale, ou d’action physique ». Chacun de ces concepts étant géré par une partie différente du cerveau.

Ils ont ensuite testé leur méthode sur 240 phrases. Ils ont fait analyser par la machine IRM les 239 premières. Ensuite, ils ont soumis au système une 240e phrase, et ce dernier a analysé les zones cérébrales impliquées dans la formulation de celle-ci et à été en mesure de reconstituer son sens dans 87 % des cas. Pour vérifier la validité de leur travail, les chercheurs ont recommencé le test 240 fois, en laissant à chaque fois de côté une différente 240e phrase à des fins d’analyse par le programme.

Le système a également été capable de procéder à l’envers : en lui soumettant une nouvelle phrase, jamais analysée, il a été en mesure de prédire quelles seraient les zones cérébrales activées si quelqu’un pensait à cette dernière.

Bien entendu, il reste du travail à accomplir. Et l’équipe de Just veut aller encore plus loin, explique-t-il :

« Une prochaine étape pourrait consister à décoder le type général de sujet auquel pense une personne, par exemple la géologie ou le skateboard. Nous sommes sur la bonne voie pour cartographier tous les types de connaissances existant dans le cerveau. »

Thinkerview

Thinkerview est une site web qui propose des entretiens d’une heure en tête à tête avec des personnalités.

Le niveau des discussions est très intéressant et bien au dessus des chaînes de TV.

L’identité ni le financement de Thinkerview ne sont publics. On peut cependant noter que le ton de Thinkerview est bien à gauche au regard du choix des interlocuteurs et de ses questions.

Voici quelques exemples d’entretiens avec Benjamin Bayart, grand sorcier de l’Internet ou Julian Branco, avocat de Wikileaks :

 

 

Related Posts:

  • No Related Posts

Le revenu de base, pilier d’un réseau mondial pour le développement soutenable

Le réseau mondial Sufficiency4Sustainability (S4S) existe depuis mai dernier. Il estime la suffisance nécessaire à un développement soutenable.

Peter Knight
Peter Knight

C’est un regroupement d’intellectuel·le·s, de chercheur·euse·s, de professeur·re·s et de spécialistes, promouvant « le développement de politiques publiques permettant d’assurer la suffisance de chacun·e et de lutter contre la consommation à outrance ».

Parmi les membres fondateurs du réseau S4S, on retrouve les économistes Ricardo Abramovay et André Lara Resende, l’experte en écologie Torrey McMillan, les écono-écologistes Herman Daly et Clovis Cavalcanti ainsi que le politologue Sergio Abrantes. La coordination du réseau et l’administration de son site web sont assurées par Peter Knight, économiste spécialisé dans l’usage des technologies de communication.

Knight considère que des pans cruciaux de la pensée humaine sont actuellement traités de manière trop cloisonnée et que l’humanité bénéficierait d’une approche plus transversale.

Les disciplines en question sont le développement soutenable, l’avancée technologique, la suffisance, l’intelligence artificielle, le revenu universel de base, les politiques publiques, l’évolution des valeurs et l’économie hétérodoxe. Ces champs sont succinctement présentés sur le site web du réseau.

L’appui de militants de longue date du revenu de base

Pour développer le sujet du revenu de base au sein de S4S, Peter Knight s’est rapproché de Phillipe Van Parijs, conseiller international du réseau mondial pour le revenu de base (le BIEN). Il est également depuis de nombreuses années proche d’Eduardo Suplicy, ancien membre du conseil exécutif du BIEN et militant toujours actif du revenu de base.

Le réseau S4S se veut un espace d’échange ouvert, dont les membres « explorent la façon dont l’évolution des valeurs et des politiques publiques peut amener les plus aisés à réduire leur consommation de matériaux et d’énergie, permettant dans le même temps au plus pauvres d’augmenter leur consommation à un niveau leur assurant l’accès aux biens et services essentiels. L’idée est d’arriver à l’échelle du globe à un niveau de consommation de matière et d’énergie « soutenable », c’est-à-dire que la planète puisse supporter sans que cela n’entraîne un effondrement de la population mondiale suite à une pénurie de ressources. »

Plus d’information sur le site web de Sufficiency4Sustainability.


Traduction par Maxime Vendé d’un article d’Andre Coelho initialement publié sur Basic Income News.

Illustration : CC-BY 2.0 Christian Cruzado.

Originalement publié sur le blog de Maxime Vendé.

Cet article Le revenu de base, pilier d’un réseau mondial pour le développement soutenable est apparu en premier sur Mouvement Français pour un Revenu de Base.

Le mois en images – Juillet 2017

Une sélection de photos mêlant différentes sources mais sélectionnées avec autant un souci d’esthétique que de sens.

1- Vu Ngoc Tuan

2- Konrad Lembcke

3- Alan Schaller

4-Paolo Pellegrin
Instagram Photo

5-Réhann
Instagram Photo

6- Paul Nicklen
Instagram Photo

7- Getty archive

Instagram Photo

8- Yaman Ibrahim
Instagram Photo


Tagged: photographie

Où en est la police prédictive ?

Lors de la journée d’étude organisée par l’Institut national des hautes études sur la sécurité et la justice, il n’a pas été question que de justice prédictive, comme nous l’avons évoqué dans notre dossier. Il a aussi été question d’un tout autre sujet, celui de la police prédictive.

Sur InternetActu.net nous avons avec constance été très critique envers la police prédictive (voire notamment « Predpol, la prédiction des banalités »). Malgré des annonces d’expérimentations en France, celles-ci sont plutôt restées discrètes, tant sur leurs fonctionnements que sur leurs résultats… Or, au colloque de l’INHESJ, la police et la gendarmerie notamment, avaient été invitées à évoquer les expérimentations qu’elles mènent. Et elles ont pris la parole…

« L’outil reproduit ce qu’on connait déjà »

Le Colonel Philippe Mirabaud commande le groupement de la gendarmerie départementale du Nord. Pour lui, face au manque de moyens, il faut améliorer le ciblage des actions et zones où opérer, et c’est en quoi ces nouveaux outils sont intéressants. Jusqu’à présent, la gendarmerie a surtout été dans une logique statistique pour comprendre la délinquance a posteriori. Si cela permet de rendre compte de l’action des services, si cela peut fournir une aide à la décision, ces outils ne sont pas un moyen de lutte contre la délinquance. Ils ne permettent même pas par exemple de mieux connaître son adversaire… Tout l’enjeu est de comprendre si la logique statistique, l’analyse criminelle, peut permettre d’orienter le travail de la gendarmerie. Le Colonel rappelle que la police et la gendarmerie utilisent déjà de nombreuses bases de données et systèmes d’information, chacun avec leurs finalités. Mais regrette que bien souvent, l’analyse de leur usage n’aille pas plus loin qu’une analyse statistique.

Dans le cadre de ce qui est présenté comme des expérimentations, la gendarmerie a donc revu l’activité de son Service de renseignement criminel à Pontoise, à la fois pour aider les unités de terrain avec un outil d’analyse prédictive pour orienter les décisions opérationnelles et également pour développer des outils d’aide à la résolution des enquêtes. Le Colonel souligne que ces développements ont été accomplis avec des « attentes raisonnables », c’est-à-dire pas très élevées visiblement. L’enjeu semble plus avoir été de déployer une expérimentation pour comprendre le fonctionnement de ces outils que pour asseoir une réforme politique ambitieuse. « On est passé des cartes avec des punaises à des systèmes statistiques qui génèrent des cartes. Et désormais on tente de générer une modélisation depuis des données sur plusieurs années pour tenter de faire un peu d’anticipation ».

Le Colonel précise que plusieurs outils ont été développés en interne, même si tous ne sont pas finalisés. Il projette plusieurs cartes qui montrent les cambriolages puis les vols de véhicules, comparant les cartes produites par le système prédictif à la réalité de la délinquance constatée. « On a des pics en octobre liés au changement d’heure et au fait que la nuit tombe plus tôt ». La prédiction ressemble à une séance de voyance : on constate des évidences.

« L’outil permet d’analyser notre délinquance. Il ne nous dit pas où vont se produire les vols, mais montre que les structures sont différentes : le cambriolage est bien plus concentré dans l’espace et le temps que le vol de véhicule. On est là dans une logique de compréhension et d’organisation. Pas de prédiction ! »

Il montre d’autres cartes provenant d’un autre outil qui sont des cartes de chaleur indiquant les cambriolages pour la semaine à venir. Un système prédictif basé sur les enregistrements des cambriolages sur les 5 dernières années. « C’est encore un travail de R&D. On va les utiliser à partir de septembre pour voir si ça peut permettre de prévoir les tournées des patrouilles sur le terrain. » En Aquitaine, ils utilisent déjà un système similaire et prennent en compte les recommandations du logiciel pour réaliser les patrouilles. Les premiers retours sont que ces outils finalement n’annulent pas la délinquance, mais la repoussent. Un constat qui rappelle celui qu’on adresse à la vidéosurveillance. Reste que pour l’instant, le système fait apparaître des zones à risque qui semblent recouper les observations de terrain.


Image : les points chauds du cambriolage à une semaine sur une carte du département du Nord, qui confirme les observations de la police de terrain. De droite à gauche : Bilel Benbouzid, le commissaire Yves Gallot, le Colonel Mirabaud.

Le Colonel Mirabaud a l’air plus souriant en présentant un autre outil développé par la gendarmerie, AnaCrime. Nous sommes quelques jours après l’incroyable relance de l’affaire Gregory qui semble devoir beaucoup à ce logiciel. Par une analyse des interrelations entre toutes les pièces d’une enquête, le logiciel permettrait de détecter des relations qui n’avaient pas été faites jusqu’alors. « Le logiciel a montré un vrai potentiel sur des affaires complexes ». Il ouvre des perspectives : « nous allons avoir de plus en plus besoin de coordinateurs de données et de renseignements criminels pour exploiter toutes les informations ». En travaillant avec les enquêteurs, le logiciel permet de mieux orienter les questions. Transformer les dossiers en base de données permet d’en tirer une nouvelle analyse.

De retour sur le logiciel de police prédictive, le Colonel est contraint de constater que de grands défis l’attendent encore. Il souligne que pour l’instant, ces outils ne fonctionnent qu’avec des données de la police et de la gendarmerie. Il va falloir donc qu’ils intègrent des données externes : la météo, l’agenda des événements, mais aussi des informations sociologiques. Il va falloir aussi intégrer les activités que réalisent les gendarmes et notamment le circuit des patrouilles. Un autre enjeu concerne la fusion des données. Il explique qu’un des grands problèmes auquel ils sont confrontés, c’est le fait que beaucoup de données dans les bases sont séquentielles. Il voudrait pouvoir par exemple suivre les verbalisations d’un véhicule sur toute la France pour mieux comprendre ses déplacements, comme c’est le cas de véhicules volés. Enfin, reste encore un autre enjeu, le circuit de décision. L’usage pourrait-on dire. Car produire des prédictions c’est très bien, mais comment sont-elles utilisées et intégrées dans les décisions opérationnelles ? Il n’y a pas encore d’interface pour faire se croiser l’expérience et le ressenti des équipes, leur perception du territoire, et les prédictions d’un logiciel.

L’intervention qui suit, celle du commissaire Yves Gallot, chef de la division des systèmes d’information opérationnelle à la direction centrale de la Sécurité publique, vient prolonger celle de son collègue de la gendarmerie. C’est d’ailleurs sur la sollicitation de la gendarmerie que la police est venu compléter les données de l’expérimentation lancée dans l’Oise, précise le commissaire divisionnaire. Un travail qui a donné naissance à « PredVol », une application de police prédictive dédiée à la délinquance commise sur les véhicules. Le logiciel fournit une représentation cartographique du département et pointe des zones de risque selon une prévision à la semaine, à partir d’un historique qui remonte sur 5 ans. Il précise les infractions : vol de voiture, de deux roues ou vol à la roulotte. Celui qui consulte le logiciel a toujours accès à l’évolution dans le temps. Et le logiciel intègre une évaluation entre ce qui a été prédit et les infractions constatées. Les résultats montrent surtout que « l’outil reproduit ce qu’on connaît déjà ». Lancée opérationnellement en septembre 2016, la police et ses partenaires ont fait un premier bilan de l’expérimentation fin février 2017. Le constat est que les périmètres sont parfois trop large et surtout que les calculs ont tendance « à faire ressortir toujours les mêmes spots, les mêmes points chauds aux mêmes endroits ». Pour le dire autrement : les zones dangereuses sont dangereuses ! Magie et profondeur des prédictions !


Image : Predvol présenté par le commissaire Gallot.

Le commissaire Yves Gallot souligne rapidement que d’autres expérimentations sont en cours. Toulouse travaille sur les vols avec violence. Etalab sur les cambriolages. Toujours sur des périmètres limités. Reste qu’Yves Gallot souligne que, comme on l’a entendu dans la justice, les modèles prédictifs ne sont pas transposables à toutes les infractions… Ils marchent beaucoup moins bien pour prédire les atteintes aux personnes par exemple. Comme son collègue de la gendarmerie, il fait le constat que la modélisation n’est pas si simple, notamment pour localiser les choses et pour passer de choses localisées à des zones qui soient opérantes. Plus qu’un outil pour l’État-Major, l’autre difficulté a été de tenter de donner des accès via smartphones pour qu’il puisse être utilisé jusque sur le terrain.

Dommage en tout cas que les représentants de la police et de la gendarmerie soient partis dès leurs interventions terminées. Ils auraient pu constater que leurs interrogations commencent déjà à avoir des réponses. Et que les critiques faites aux systèmes de police prédictive comme PredPol, commencent à être intégrées comme de nouveaux défis par d’autres chercheurs et systèmes.

Que nous apprend la cartographie du crime ?

Le géostatisticien Jean-Luc Besson est le spécialiste de la cartographie criminelle à l’Observatoire national de la délinquance et des réponses pénales. Il est notamment l’auteur d’études sur la criminalité dans le grand Paris (.pdf). Ce spécialiste de l’observation de la criminalité produit des « machines à calculer » (.pdf) : c’est donc assez naturellement qu’il s’intéresse à la transposition des machines statistiques aux outils prédictifs, en travaillant particulièrement sur les questions de géolocalisation que soulèvent ces outils.

Il a ainsi développé un outil pour étudier « les vols avec violence sans arme contre les femmes sur la voie publique à Paris », reprenant et prolongeant visiblement des travaux initiés depuis 2008 (voire par exemple cette présentation .pdf). Il a utilisé des algorithmes du domaine public et a tenté de comprendre comment prévoir le déplacement géographique de la criminalité sur un territoire. Sa modélisation intègre les attributs géographiques et les vulnérabilités du terrain afin de déterminer si certains terrains sont des facteurs aggravants, c’est-à-dire s’ils expliquent l’émergence, la présence et la pérennisation des « hotspots », les lieux où se concentrent les faits (c’est ce qu’on appelle les technologies du risk terrain modeling : la modélisation des terrains de risques).

Jean-Luc Besson prend le temps de nous expliquer comment il découpé Paris en 10 833 cellules de 100 mètres de côté. Chaque cellule est ensuite modélisée selon la densité de ses caractéristiques : présence d’arbres, de friches, de magasins (et quels types), etc. pour voir si ces éléments-là sont influents, c’est-à-dire s’ils participent au facteur de risque… Il a ensuite intégré des données de la préfecture de police sur ce type de fait, comportant plaintes comme interpellations et disposant d’une précision géographique permettant de géocoder les événements et donc de les localiser. Là encore, il a fallu nettoyer les données, comme toutes celles qui n’ont pas de coordonnées géographiques par exemple. Au total, il a rapatrié 4173 faits géocodés sur Paris en 2014. 2073 cellules (soit 19 % des 10 833 cellules qui découpent Paris) contiennent un fait ou plus, montrant, presque par nature, une concentration géographique. Enfin, il a fallu intégrer la temporalité des événements, qui ont montré aussi des phénomènes de concentration des violences sans armes contre les femmes à Paris : entre 17 et 19h les après-midi de semaine, la nuit durant les week-ends avec une autre pointe à l’heure de sortie des boîtes de nuit.


Image : carte des hotspots parisiens concentrant les vols avec violence sans arme contre les femmes sur la voie publique de jour (à gauche) et de nuit (à droite) le week-end.

L’analyse montre surtout la grande régularité des hotspots sur le territoire parisien. Ce type de vol est très concentré à la fois sur certains points du territoire parisien et à certains horaires. L’analyse des attributs géographiques des cellules a permis de pointer 21 facteurs de risque, allant de la présence d’arrêts de bus, de magasins de restauration rapide, de café et de bar, de pharmacie, de guichet de banque, de magasin d’alimentation… mais aussi bien sûr des lieux où sévissent trafic de drogue et prostitution. Et ces différents facteurs s’agencent dans un autre ordre de jour et de nuit. Peut-on pour autant prédire ou prévoir ? Peut-on savoir ou comprendre ce qui marche et ne marche pas en la matière, comme tente de le faire la méta-étude Policing Matrix de l’université George Mason ? Et quand les modèles fonctionnent, comment les expérimenter ?


Image : la carte des risques aggravants significatifs des vols avec violence sans arme contre les femmes sur la voie publique à Paris, le week-end, de nuit. Les terrasses, la prostitution, les bars et le trafic de drogue sont devant les boites de nuit, les magasins d’alimentation et les métros.

Pour Jean-Luc Besson, ces indicateurs permettraient par exemple d’améliorer la prévention en l’adaptant aux endroits les plus dangereux, en permettant aux gens de comprendre les facteurs de risque. Reste que les données demeurent encore très partielles : on ne voit que la criminalité connue. « Si la démarche est scientifique, le résultat ne l’est pas », concède le chercheur. Enfin, ces études pointent très souvent des territoires à haute intensité criminelle qui posent le problème de réponses qui peuvent être facilement discriminatoires. Enfin, ces programmes de police prédictive promettent de rationaliser les forces de police. Si les budgets apprécient cela, c’est moins le cas des services, qui apprécient peu que les machines se substituent à leur expertise. Pour Jean-Luc Besson, il est important de comprendre que ces outils ont des effets directs sur les libertés publiques. Et c’est là une question que la société doit poser avant de se précipiter sur la réponse.

Hunchlab : vers une police prédictive responsable

Jeremy Heffner est data scientist chez Azavea, une « B Corp », une entreprise privée spécialisée dans l’analyse géographique et qui agit pour l’intérêt général. Il est le responsable d’un des principaux projets d’Azavea, Hunchlab (@hunchlab), un outil de police prédictive, concurrent direct de Predpol qui ne s’intéresse pas seulement à la prédiction du crime, mais à comment aider la police à répondre à ces prédictions afin d’apporter non seulement une mesure de la criminalité, mais surtout un effet et évaluer l’impact de ce retour. Le projet ne se définit d’ailleurs pas comme un projet de prédiction du crime, mais comme « un logiciel de gestion de patrouille de police proactif ».

L’enjeu n’est ni de prédire ni de prévoir, car c’est finalement assez simple, souligne Jeremy Heffner en invitant ceux qui développent des systèmes algorithmiques à faire preuve d’un peu plus d’humilité. Tout l’enjeu est plutôt de réussir à créer un système d’aide à la décision avec rétroaction plus solide, permettant de mieux évaluer ce que vous pouvez prédire et ce que vous n’êtes pas capable de prédire et surtout de prendre garde à ses contre-effets.

Comme nombre de systèmes, Hunchlab agrège des données hétérogènes et les traduit en carte, en points chauds. Le système produit des cibles ou missions selon un code couleur pour le type de crime. Tout l’enjeu est alors de proposer aux patrouilles de se rendre dans ces points chauds selon des modalités différentes, soit d’une manière visible, soit pas, pour une certaine durée. Hunchlab enregistre enfin les retours des patrouilles : les policiers doivent répondre à une série de questions pour évaluer leur travail comme le système – du type faut-il vous envoyer à cet endroit plus souvent, moins souvent… Contrairement à PredPol qui favorise le surcontrôle aux points chauds, Hunchlab utilise un modèle probabiliste pour faire varier les patrouilles et les encourager à patrouiller sans vraiment surestimer une zone sur une autre, pour ne pas transformer la réaction de la police à l’information qu’ils reçoivent.

Hunchlab cherche à réduire la nuisance globale de la criminalité en utilisant des données, en les analysant, en sélectionnant des localisations, en proposant aux patrouilles des manières d’y répondre et en tentant d’apprendre de ces réponses. Hunchlab utilise des données sur la criminalité, des données sur le terrain pour mieux le comprendre (emplacements de bars, de commerce, de stations de métro, etc. selon le principe de modélisation de terrains de risque que nous avons vu plus haut), des données sur le temps allant de la météo aux événements organisés dans la ville, et également des éléments calculés comme l’heure, le mois, les phases de la lune… Et le système tente de connecter toutes ces données au crime (voire cette vidéo explicative du fonctionnement de Hunchlab).

Comme ailleurs, Hunchlab produit un jeu de données pour entrainer le système, utilisant les premières années pour faire des prévisions et les années suivantes pour les vérifier et les améliorer. Le système produit des cartes de prédiction du crime selon le type de crime (vol, agression, cambriolage…), mais sans donner aux policiers de niveaux de risques alors que le système en dispose. Pourquoi ? Parce que la prédiction n’est pas le plus important, insiste Heffner. Le problème des logiciels de ce type, c’est qu’ils ont tendance à envoyer les policiers uniquement là où le risque calculé est le plus grand ce qui influe sur le comportement des policiers. Pour remédier à cela, Hunchlab introduit de l’aléatoire. Cette idée leur est venue des officiers eux-mêmes et de leur manière de travailler. Cela permet de regarder ce qu’il se passe quand on n’envoie pas de policiers dans un endroit qui est évalué à risque. Cela permet surtout aux policiers de ne pas sur-interpréter ce qu’ils constatent, comme de s’en prendre à n’importe qui parce qu’ils sont dans une zone où le risque de crime est fort. Enfin, Hunchlab observe aussi les tactiques que choisissent les policiers, leur présente des options et tente également d’évaluer leurs effets. « Quand on donne aux acteurs des choix dans un système, vous obtenez un bien meilleur engagement », rappelle Heffner, avec la force de l’évidence. En fait, ces systèmes ne cessent de faire des erreurs et c’est pourquoi il est important d’intégrer une rétroaction permanente afin de continuer à tenter de les réduire.

Pour Jemery Heffner, « plus vous développez un outil puissant, plus vous avez un impact possible, plus vous devez agir avec humilité ». Et le chercheur de rappeler que les modèles font des erreurs. C’est pourquoi il faut expliquer les choses, comment ça marche, à partir de quoi, comment ça se trompe… Beaucoup d’entreprises se cachent derrière leurs secrets d’affaires. « Je ne comprends pas pourquoi elles font ça », notamment parce que l’investissement dans l’algorithme est bien souvent la part la plus faible de l’investissement par rapport à l’ensemble du coût du système déployé. De plus, tout le monde utilise peu ou prou les techniques, des techniques assez communes. Le secret est un moyen de tromper le public, estime Heffner. Il est non seulement nécessaire d’expliquer comment fonctionne le système, mais il faut également expliquer comment le système transforme des calculs en décisions. « Les utilisateurs ont besoin d’avoir confiance en ces outils ».

Par rapport à PredPol, Hunchlab produit un autre renversement : il est transparent sur les données qu’il utilise, ses théories, ses modèles, ses algorithmes… Hunchlab n’a pas de secrets commerciaux. « La décision et l’allocation des politiques publiques doivent s’expliquer. On doit pouvoir les utiliser devant une Cour de justice. Les gens doivent avoir envie de les utiliser. » Et le spécialiste de critiquer ainsi les programmes qui calculent le risque de récidive aux États-Unis, comme ceux qu’évoquaient Angèle Christin. Si les prévenus qui ont un score supérieur à 7 présentent un risque, alors que ce passe-t-il pour celui qui obtient un 6,9 ou un 7,1 ? « Ces scores sont des estimations ! », rappelle le spécialiste. Fragiles par nature et construits sur des agrégats d’incertitudes.

Enfin, il faut rappeler que les hommes eux-mêmes font des erreurs. Même quand on leur montre une information, bien souvent, ils l’interprètent mal. Quand on leur montre une cellule avec une possibilité de crime, les officiers ne sont pas informés du niveau de risque, c’est-à-dire qu’ils ne savent pas si c’est une zone avec un risque très élevé ou une zone sélectionnée aléatoirement. Le but en fait, est de ne pas influer sur leur comportement. Ne pas faire que quand ils arrivent à un endroit, ils pensent que tout le monde est un criminel. En cachant certaines informations aux policiers, on espère apporter un meilleur résultat à l’ensemble du système, éviter les débordements, éviter l’optimisation pour l’optimisation.

« Dans la police prédictive, la prédiction n’est pas le plus important », conclut Heffner. L’enjeu c’est de construire des systèmes pour tenter de faire au mieux ce qu’ils doivent faire. Et dans ce cadre, plus que de faire des prédictions sans failles, il faut avant tout faire des estimations explicables, permettre d’avoir des décisions interprétables… c’est-à-dire aider les hommes à interagir avec la machine, pas à se faire dicter leur conduite par celle-ci.

 « L’opacité n’est pas insurmontable »

Laissons le mot de la fin au sociologue Bilel Benbouzid, spécialiste de ces sujets et organisateur de cette journée d’étude à l’INHESJ. Comment peut-on faire que la police statistique soit un acteur de la prévention, elle qui a surtout servi à mesurer le crime ? Les boîtes noires algorithmiques nous confrontent à des systèmes technique qu’on a du mal à interpréter, à comprendre. Pourtant, « la question de l’opacité n’est pas insurmontable ». Les sociologues des objets techniques ont toujours été confrontés à des objets opaques. Et tout l’enjeu, comme nous y invitait Bruno Latour, c’est de prendre le pli de ces techniques pour révéler leur somptueuse opacité.

Bill Benbouzid souligne la difficulté à enquêter sur ces systèmes de police prédictive. Malgré ses efforts, par exemple, il n’a jamais eu accès aux concepteurs de Predpol. Mais il a remonté le fil de leurs travaux pour comprendre que l’algorithme de Predpol qui prédit l’intensité du risque provenait d’un laboratoire de recherche de Chambéry dédié à la sismologie, comme il l’expliquait dans cet article pour la Vie des Idées. Comme pour les répliques des tremblements de terre, Predpol mesure la concentration et la contagion du crime pour tenter d’en définir l’intensité du risque. Mais si pour prédire les répliques, la contagion est importante, est-ce un critère valable pour le crime ? Et si c’est le cas, comment en rendre compte ? Comment pondérer les valeurs produites par ces systèmes pour qu’elles ne deviennent pas performatives, comme tente de le faire Hunchlab ?

La question de la régulation de ces systèmes est également un enjeu. Aujourd’hui, beaucoup considèrent que ces systèmes s’inscrivent dans un régime un peu spécial lié au terrorisme. Pour certains, ces systèmes entérinent la fin du droit, puisqu’ils sont régulés de l’intérieur.

Bilel Benbouzid s’est intéressé à la controverse en légitimité de ces systèmes. « Dans quelle mesure la police peut-elle contrôler une personne dans la rue à partir d’information provenant d’un algorithme ? » Pour le professeur de droit américain Chistopher Slobogin, la jurisprudence qui encadre la pratique policière aux États-Unis exige pour faire une saisie ou une perquisition une « cause probable », validée par le juge avec un mandat de perquisition par exemple. Dans les années 70, pour permettre à la police de faire du contrôle d’identité dans la rue, la jurisprudence va permettre aux officiers de se baser sur une simple « suspicion raisonnable ». Pour Slobogin, la jurisprudence du contrôle de rue repose sur un principe de proportionnalité qui pourrait s’adapter à la police algorithmique : « plus la cause probable est robuste, plus je peux être intrusif et inversement, plus la suspicion raisonnable est faible moins je peux être intrusif ». Pour Slobogin, ce principe de proportionnalité pourrait tout à fait s’appliquer à la régulation des algorithmes de police prédictive. Pour lui, il suffit que la justice demande aux producteurs d’algorithmes de s’assurer d’une représentation très rigoureuse des groupes sociaux impactés, c’est-à-dire de veiller à ne pas produire de biais.

D’autres juristes, comme l’Américain Andrew Ferguson – qui publie prochainement un livre sur le sujet – a comparé, par analogie, le raisonnement prédictif à celui d’un informateur. Pour les cours de justice, en tout cas, les informations d’un indic sont souvent suffisantes pour être retenues comme cause probable ou suspicion raisonnable. « Peut-on comparer un algorithme à un informateur ? » Pas tout à fait, estime Ferguson, car un indic raisonne souvent de manière individualisé, alors qu’un algorithme raisonne de manière générale. Sauf que bien souvent, la police a besoin de croiser l’information d’un informateur pour intervenir. Ferguson tente également une analogie avec le profilage, qu’utilisent déjà les officiers quand ils décident d’intervenir en constatant un comportement qui leur semble suspect. Pour Ferguson, la prédiction permet bien souvent de renforcer le profilage en situation.

Une jurisprudence américaine a déterminé qu’une zone à haut risque établie par un algorithme pouvait être considérée comme une suspicion raisonnable pour autoriser le contrôle policier. Pour autant qu’on sache juridiquement ce qu’est une zone à haut risque… Ce qu’aucune jurisprudence ne s’est encore penchée à faire. Pour Ferguson, ces outils permettent de gagner en précision. Il propose d’ailleurs de certifier les algorithmes comme la justice a certifié la qualité des chiens renifleurs.

D’autres juristes estiment que ni la cause probable ni la suspicion raisonnable ne suffisent. Le soupçon doit être individualisé c’est-à-dire qu’il doit désigner une personne ou une action pour opérer. Pour la professeure de droit à l’université d’Arizona, Jane Bambauer, dans l’un de ses articles intitulé « Tracas », l’enjeu consiste à minimiser le taux de tracas, et c’est justement ce que permettent ces outils. Les cours de justice, rappelle la juriste, interdisent la quantification de la cause probable et de la suspicion raisonnable. C’est-à-dire qu’ils ne peuvent être un argument probabiliste, car le soupçon doit être individualisé. Jane Bambauer rappelle néanmoins que les juristes ont très mal interprété cela. Pour eux, il y a une différence entre le soupçon individuel et général. Pour Bambauer, ces deux formes de soupçons ne doivent pas s’opposer : le soupçon que produit un algorithme prolonge celui du policier devant un individu. Pour elle, la jurisprudence montre l’importance de minimiser le taux de tracas. Cela signifie que ces outils doivent être utilisés proportionnellement au taux de tracas ou aux taux d’erreurs qu’ils génèrent. Ainsi on a longtemps interdit des interventions sur la base d’une information quantifiée, comme de faire une descente sur des campus parce qu’on est sûr de trouver de la drogue dans 60 % des chambres. Mais on voit bien qu’il pourrait demain en être autrement… L’enjeu n’est bien sûr pas de contrôler l’ensemble des dortoirs sur la base d’une information quantifiée. Mais peut-être faudrait-il regarder quel serait le taux de tracas raisonnable ? Et réintroduire du hasard, de l’aléatoire (comme le fait Hunchlab), pour générer une forme d’équité…

Faut-il introduire plus de transparence et de gouvernance ? C’est ce que proposent Slobogin comme Ferguson finalement, mais la transparence ne permettra pas à elle seule de répondre à l’opacité. « Peut-être que la puissance du machine learning exige de répondre par des principes semblables à ceux qu’utilisent le machine learning, c’est-à-dire des principes quantifiés ?», suggère le sociologue, à l’image du taux de tracas ou de l’aléatoire.

Ce que montrent ces controverses, c’est combien la question de la légitimité de ces outils elle-même est encore à défricher. Mieux déterminer leur légitimité, mieux l’encadrer, permettra certainement de mieux border leur utilisation, afin qu’elle ne se fasse pas seulement au profit d’une pure optimisation.

Hubert Guillaud

Notre dossier « Vers la justice analytique » :

Twitter2mastodon

J’ai mis en ligne un script Python qui permet de recopier les posts public d’un compte Twitter sur Mastodon. Ca s’appelle twitter2mastodon, c’est sous licence libre GPL et c’est hébergé chez framagit.

Du coup, j’en ai profité pour introduire le clone de Donald Trump sur Mastodon :D

J’ai aussi ajouté une copie de CanardPCHardware

 

Related Posts:

Les Archives nationales montrent la voie de l’Open Data culturel !

Lentement (mais sûrement), les choses sont en train de bouger dans le monde culturel en faveur de l’ouverture des données. J’ai déjà eu l’occasion d’écrire à ce sujet en avril dernier à propos de l’évolution graduelle des politiques des bibliothèques, mais c’est du côté des archives publiques qu’une excellente nouvelle est tombée cette semaine : les Archives nationales ont adopté un nouveau règlement appliquant un principe de gratuité par défaut pour la réutilisation des informations publiques qu’elles détiennent (voir l’article écrit par Marc Rees sur NextINpact à ce sujet).

Cette décision est loin d’être anodine, à plus d’un titre. Rappelons tout d’abord que si les administrations françaises sont soumises depuis le vote de la loi République numérique l’an dernier à un principe « d’Open Data par défaut », ce n’est pas le cas des institutions culturelles qui relèvent encore d’un régime d’exception. La loi Valter, adoptée quelques mois avant la loi Lemaire, a certes fixé un principe de gratuité, mais en ménageant la possibilité pour les bibliothèques, archives et musées de continuer à percevoir des redevances de réutilisation pour les « informations issues des opérations de numérisation des fonds et des collections […] et, le cas échéant, sur des informations qui y sont associées lorsque ces dernières sont commercialisées conjointement« . Cela signifie que la réutilisation des reproductions numériques produites par ces établissements, ainsi que les métadonnées associées, peut continuer à être monnayée.

Mais les Archives nationales ont précisément fait le choix de ne pas appliquer ce régime dérogatoire et d’abroger leur précédente grille de tarifs datant de 2010. Cela signifie que la libre réutilisation devient la règle pour « les documents librement communicables à tous et sur lesquels des tiers ne détiennent pas des droits de propriété intellectuelle. » Il persistera bien des exceptions à ce principe, mais elles découlent logiquement de la législation en vigueur. Elles concernent : «  les documents qui ne sont pas encore librement communicables au regard du code du patrimoine ou d’autres dispositions législatives, les documents d’origine privée conservés aux Archives nationales mais dont l’accès ou l’exploitation sont soumis à restrictions ainsi que les œuvres de l’esprit qui ne sont pas encore tombées dans le domaine public. » Ce dernier passage est d’ailleurs important, car on en déduit a contrario que la gratuité concernera bien les oeuvres du domaine public. Il ne s’agit donc pas uniquement d’une politique d’Open Data, limitée à des informations, mais aussi d’un Open Content. Les Archives nationales avaient déjà commencé à s’engager dans cette voie grâce à un partenariat conclu avec Wikimedia France pour la libre diffusion de plus de 500 documents numérisés remarquables issus de leurs collections. On devrait logiquement assister à présent à une amplification de cette politique, qui est déjà la norme aux Etats-Unis ou en Allemagne.

Les Archives nationales sont déjà présentes sur Wikimedia Commons.

Les Archives nationales tirent aussi les conséquences du mécanisme d’Open Data « à la demande » mis en place dans la Loi Lemaire. Elles précisent en effet qu’elles seront « tenues de satisfaire les demandes faites au titre du droit d’accès, donc de remettre, le cas échéant, des copies des documents dès lors qu’ils sont librement communicables« . Cela signifie que si des copies numériques de documents existent, les AN seront obligées de les fournir aux demandeurs qui bénéficieront alors « d’un droit non exclusif et gratuit de libre réutilisation à des fins commerciales ou non, dans le monde entier et pour une durée illimitée« . On notera que les AN ont par contre fait le choix de ne pas appliquer de licence particulière à leurs données (comme la Licence Ouverte d’Etalab ou l’ODbL, par exemple). C’est tout à fait possible, les licences de réutilisation étant facultatives lorsque la réutilisation est gratuite. Ce sont les règles de base du Code des Relations entre le Public et l’Administration qui s’appliqueront par défaut, ce qui revient dans les faits à peu près aux mêmes conditions que la Licence Ouverte (libre réutilisation à charge de citer la source des données).

La décision des Archives nationales de passer à un Open Data par défaut a une portée symbolique importante, car le domaine des archives publiques est certainement l’un de ceux pour lesquels la réutilisation a soulevé jusqu’à présent le plus de crispations. Au niveau des archives départementales, un conflit a même éclaté avec la société de généalogie NotreFamille.com (rebaptisée depuis l’an dernier Filae) à propos de la réutilisation des données d’état civil. Cette querelle a même fini par dégénérer en contentieux et elle a encore connu des rebondissements après le vote de la loi Valter. Résultat : rares sont les archives municipales et départementales à s’engager dans des politiques d’Open Data aujourd’hui. En matière d’archives, l’essentiel de l’effort de numérisation au plan national a pourtant été porté par les départements et les Archives nationales, paradoxalement, ne sont pas aussi avancées en la matière que peut l’être la Bibliothèque nationale de France. Mais l’application de la gratuité par défaut aux AN reste un message important envoyé à l’ensemble de la sphère des archives, et même au-delà.

Plusieurs signes ces derniers mois montrent que les mentalités sont lentement en train d’évoluer dans le champ culturel. En mars dernier, le lancement du portail France Archives mis en place par le SIAF avait déjà été l’occasion de faire passer en Open Data les données d’inventaire des Archives nationales et départementales. Les choses avancent aussi en matière d’Open Content, comme le montrent par exemple les Archives des Hauts-de-Seine, qui ont publié ce mois-ci sous Licence Ouverte près de 2000 cartes postales numérisées sur le portail Open Data du département. Mais la nouvelle la plus spectaculaire en matière d’Open Data culturel est venue ces derniers jours de Toulouse. Les Archives municipales de la ville rose s’étaient déjà montrées pionnières en libérant dès 2013 leurs données et leurs contenus numérisés. A la fin du mois de juin, le Conseil municipal a décidé d’étendre cette politique à l’ensemble des établissements culturels de la ville : archives, musées et bibliothèques. Les données produites par ces institutions sont placées sous licence ODbL (avec une clause de partage à l’identique), tandis que les reproductions d’oeuvres du domaine public sont complètement ouvertes. C’est la première fois en France, à ma connaissance, qu’une politique globale d’Open Data culturel est appliquée à l’échelle d’une ville.

Des reproductions 3D d’objets conservés au Musée Saint-Raymond de Toulouse, librement réutilisables sur la plateforme Sketchfab.

Ce que ces exemples montrent, c’est qu’un nombre croissant d’établissements culturels font à présent le choix de ne pas appliquer le régime dérogatoire en matière de réutilisation que la loi Valter avait pourtant aménagé pour eux. J’avais déjà écrit en avril dernier un billet à propos de l’évolution sensible en faveur de l’ouverture que l’on constate du côté des bibliothèques. Près de la moitié d’entre elles pratiquent à présent la libre réutilisation des contenus qu’elles numérisent, notamment les bibliothèques universitaires et de recherche. Le secteur culturel le plus en retard en France en matière d’ouverture reste celui des musées. Cela s’explique en partie à cause de l’influence d’un établissement comme la RMN (Réunion des Musées Nationaux) dont l’agence photographique continue à commercialiser les reproductions des oeuvres du domaine public des musées pour lesquels elles numérisent les collections.

Mais on commence à voir que ce modèle de commercialisation des données arrive à bout de souffle. La ville de Paris a par exemple fait un choix similaire en confiant la gestion de ses fonds numérisés à une institution privée : la Parisienne de photographie. Or cette dernière connaît visiblement des problèmes de rentabilité suffisamment sérieux pour que sa suppression soit envisagée par la ville. Ces difficultés financières n’ont à vrai dire rien de surprenant, car on sait que la RMN est elle aussi lourdement déficitaire et qu’un trou inquiétant se creuse chaque année un peu plus dans son budget…

Le « trou de la RMN » tel que révélé par une question parlementaire en 2015.

Si les établissements culturels renoncent de plus en plus par eux-mêmes à lever des redevances de réutilisation sur leurs données, c’est qu’ils se rendent compte qu’il ne s’agit pas d’une manière pérenne de financer leurs activités de numérisation. La rentabilité n’est tout simplement pas au rendez-vous, tandis que les « dégâts collatéraux » provoqués par ce type de politiques sont importants. On pense notamment à la réutilisation des images par les chercheurs dans les articles publiés dans des revues scientifiques, qui se trouve fortement entravée lorsque le paiement de redevances est imposé.

De ce point de vue, les institutions culturelles doivent se rendre compte qu’elles sont dans une situation absolument identique à toutes les autres administrations : en dehors de quelques exceptions limitées, les données publiques n’ont qu’une faible valeur d’échange, alors qu’elles ont une forte valeur d’usage. Appliquer des redevances revient à neutraliser l’essentiel de cette valeur d’usage, sans être en mesure de dégager des ressources propres suffisantes pour auto-financer les activités des établissements. Et cela peut même s’avérer un piège redoutable, comme le montre ce qui est train d’arriver à la Parisienne de photographie, qui joue à présent sa survie pour avoir défendu ce modèle de marchandisation du patrimoine…

C’est ce constat lucide sur la valeur des données, fait notamment par le rapport Trojette en 2013, qui a conduit à la consécration du principe d’Open Data par défaut dans la loi Lemaire. Le Conseil National du Numérique avait d’ailleurs explicitement recommandé de ne pas faire d’exception pour les données culturelles et de les réintégrer dans le droit commun. La loi Valter en a décidé autrement, mais elle risque à présent de subir une forme d’abrogation par l’usage. C’est à mon sens une fatalité à long terme, car les redevances de réutilisation ne constituent pas en réalité un modèle économique, mais un modèle idéologique, lié à une tradition solidement ancrée dans notre pays de contrôle de la culture en complet décalage avec les réalités de l’économie de l’abondance.

Comme l’atteste la décision des Archives nationales, les établissements culturels peuvent faire le choix de dépasser cette vision passéiste de leur rôle. C’est la première fois qu’une institution de cette envergure adopte une politique générale d’Open Data et cela marque sans doute un jalon. Au niveau national, la Bibliothèque nationale de France (BnF) pratique déjà l’Open Data pour ses données bibliographiques placées sous Licence Ouverte depuis 2014. Mais les reproductions d’oeuvres du domaine public diffusées par la bibliothèque numérique Gallica font toujours l’objet de redevances de réutilisation. Et du côté des musées, force est de constater qu’aucun établissement national ne s’est pour l’instant engagé dans une politique d’ouverture, alors même que les exemples étrangers commencent à devenir significatifs (le Metropolitan Museum en a apporté la preuve en février dernier en libérant 375 000 images). On attend également à présent de voir quelles seront les orientations du nouveau Ministère de la Culture en la matière, car l’Open Data culturel constitue à l’évidence un enjeu national.

***

Les Archives nationales ont été créées à la Révolution française par la loi du 7 messidor de l’An II qui affirmait un principe de libre consultation des documents d’archives reconnu à tous les citoyens. Plus de deux siècles plus tard, une nouvelle page de cette histoire se tourne avec le passage à un principe de libre réutilisation des données, qui constitue le prolongement moderne de cette philosophie républicaine.


Classé dans:Bibliothèques, musées et autres établissements culturels, Données publiques et Open Data

Axelle Lemaire, la cryptographie et la surveillance massive…

Il y a quelques jours, Axelle Lemaire, ex-secrétaire d’Etat chargée du numérique sous François Hollande, s’est émue de l’arrestation d’opposants Turcs sous prétexte qu’ils utilisaient des outils de chiffrement. Et d’évoquer ensuite le lien entre chiffrement et […]

Full Circle Mag FR: Pour l'été...

... voici le numéro 122 en français, disponible sur notre page NUMÉROS ou, directement, en cliquant sur l'image ci-dessous.



issue122fr.png

Outre les bonnes rubriques habituelles, vous y trouverez, notamment :

  • Un article de Ronnie, l'éditeur en chef du FCM en anglais, vous détaillant comment installer UBTouch, le remplacement d'Ubuntu Touch. Ne soyez donc pas inquiets : tous ceux qui sont propriétaires d'un téléphone Ubuntu, pourront le flasher pour mettre UBports Touch à la place d'Ubuntu. Et votre téléphone (ou tablette, d'ailleurs !) reprendra vie !
  • Le début d'une nouvelle série de SJ Webb, expliquant comment il fait des recherches dans le domaine de l'ostéopathie, avec Linux ; ce qui peut paraître surprenant est que sa distrib. de choix pour les recherches est Fedora et pas Ubuntu ...
  • Et deux critiques : l'une du programme Etcher, qui rend la mise sur USB d'une image ISO sûre et facile, et l'autre du jeu Siltbreaker Act 1 qui fait partie, en quelque sorte, de Dota 2 The International Battle Pass 2017.

Où que vous soyez, nous vous souhaitons un bon été avec le FCMfr.

Amusez-vous bien !

L'équipe du FCMfr :

  • Le scribeur, Bab ;
  • Les traducteurs, AE et d52fr ;
  • Les relecteurs, Bab, d52fr et moi-même, AuntieE