Revue

Dossier

Dans les coulisses de l’IA : travail et infrastructures de l’administration algorithmique

Dans les coulisses de l’IA : travail et infrastructures de l’administration algorithmique
©Image générée par une IA - Bing Copilot
Le 3 avril 2024

De la conception des infrastructures de stockage de l’information au façonnage et à l’annotation des jeux de données, nombreuses sont les activités humaines qui entourent le fonctionnement de l’intelligence artificielle (IA). Celles-ci sont le lieu de choix socialement situés qui orientent progressivement les résultats produits algorithmiquement et façonnent le paysage organisationnel dans lequel ces outils sont déployés.

Portées par une augmentation exponentielle des capacités de traitement et de stockage des données numériques, les techniques d’apprentissage automatique connaissent un développement inégalé depuis le début du XXIe siècle. La victoire d’Alpha Go, outil conçu par Google, sur le champion du monde de Go Lee Sedol en 2016, ou encore la diffusion en 2023 de ChatGPT, puissant générateur automatique de texte, en constitue deux marqueurs médiatiques importants.

Issus du secteur de la tech, au sein duquel ils sont d’abord déployés, les outils d’IA touchent un nombre croissant de domaines parmi lesquels, à partir de 2010, les services publics.

Interprétation de l’imagerie médicale, aide à la décision judiciaire, lutte contre la fraude fiscale ou encore orientation des parcours universitaires : de multiples projets algorithmiques voient le jour au sein des administrations publiques, y compris au cœur des secteurs régaliens.

La dernière décennie, marquée à la fois par l’avènement du « big data », par l’ouverture de l’accès aux documents administratifs, et par la modernisation de l’action publique via les instruments numériques, voit ainsi les techniques d’apprentissage forcer les portes des agendas gouvernementaux, tant à l’échelle nationale qu’européenne. Le rapport du colloque AI for Humanity fait office de précurseur en 20182, en préconisant l’intégration des outils algorithmiques aux administrations comme vecteur d’« exemplarité », de « modernisation » et d’« augmentation [de leur] efficacité ». Quelques mois plus tard, la stratégie nationale IA et le plan Action publique 2022 font de l’IA l’un des instruments privilégiés de la réforme des services publics, tout en prévoyant des instruments d’encadrement des techniques concernées. Cette dynamique culmine au niveau européen avec le AI Act, réglementation internationale pionnière en la matière, ratifiée par le Parlement européen en février 2024.

Les expérimentations d’outils d’IA au sein des services publics se déploient selon des objectifs et des configurations organisationnelles variées.

En France, les programmes gouvernementaux encouragent l’intégration de l’IA aux administrations publiques selon des modalités diverses : favorisation d’accords de partenariats et de prestation avec des acteurs privés, comme les start-up de l’IA ; appui opérationnel de l’écosystème de la modernisation publique par le biais de programmes tels qu’entrepreneur d’intérêt général3 et les start-up d’État, ou incitation au développement de compétences en interne par les administrations. Dans ce cadre favorable, des expérimentations d’outils d’IA au sein des services publics se déploient selon des objectifs et des configurations organisationnelles variées : à titre d’exemple, un partenariat est conclu entre plusieurs instituts de recherche publics et Facebook autour de l’accès à des serveurs de calculs mutualisés ; la direction interministérielle du numérique (DINUM) s’engage en interne dans la conception d’un algorithme conversationnel sur le modèle de ChatGPT, avec l’aide de plusieurs consultant·es externes ; l’incubateur de Pôle emploi déploie un algorithme de matching automatique entre allocataires et entreprises susceptibles de les recruter ; la gendarmerie nationale organise chaque année, conjointement avec plusieurs entreprises, une « nuit de l’IA » au cours de laquelle sont repérées des solutions « innovantes » susceptibles de faire l’objet d’expérimentation au sein de ses services.

Promus par les institutions modernisatrices et les programmes gouvernementaux comme instruments de rationalisation et de mise en transparence de l’action publique, les outils d’IA suscitent également de vives craintes. Puisant dans un ensemble de productions culturelles foisonnantes en la matière4, les discours entourant l’IA oscillent entre un « technosolutionnisme » prêtant aux algorithmes des capacités inégalables et un « catastrophisme » mettant en garde contre un outil chargé de risques existentiels pour le service public voire, plus largement, l’Humanité. L’hypothèse d’une « IA forte » ayant atteint le stade de la « singularité » 5 – c’est-à-dire d’une IA superpuissante et douée de conscience – irrigue depuis les années 2010 les arènes médiatiques, académiques, militantes (création en 2015 de l’Association française contre l’IA, inspirée du Future of Life Institute étasunien) ou encore politiques (le président Emmanuel Macron évoquait un « moment prométhéen », une « chance inouïe d’accélérer le calcul réservé à Dieu chez Leibniz » lors du discours du colloque AI for Humanity6).

Si elles ont contribué à placer l’IA au cœur du débat public, ces représentations d’autonomie et de puissance contribuent pourtant à invisibiliser les réalités matérielles, infrastructurelles, institutionnelles, sociales et politiques qui sous-tendent le fonctionnement des techniques d’apprentissage automatique.

Fonctionnement de l’apprentissage automatique

Contrairement à leurs ancêtres « symboliques » appliquant des règles de type « si… alors », les algorithmes d’apprentissage automatique produisent des résultats à partir du traitement statistique de grandes quantités de données annotées fournies en entrée. C’est à partir de l’analyse quantifiée et standardisée de ces masses d’informations structurées que sont proposées des solutions pour des cas inédits.

De la conception des infrastructures de stockage de l’information au façonnage et à l’annotation des jeux de données, nombreuses sont les activités humaines qui entourent le fonctionnement de l’IA. Celles-ci sont le lieu de choix socialement situés qui orientent progressivement les résultats produits algorithmiquement et façonnent le paysage organisationnel dans lequel ces outils sont déployés. Le développement d’une IA publique se produit ainsi depuis le milieu des années 2010 dans un contexte d’échanges public-privé soutenus, marqué par la reconfiguration de nombreuses chaînes de responsabilité, se produisant à l’ombre de l’opacité algorithmique. Derrière les représentations d’autonomie associées à ces outils, les arènes de l’IA publique sont ainsi traversées de controverses et de choix politiques liés à l’architecture de ces dispositifs techniques – au sein de laquelle les infrastructures matérielles et le travail des données occupent une place centrale.

Infrastructures matérielles, souveraineté et environnement

Les techniques d’apprentissage automatique reposent sur d’importantes infrastructures, que les imaginaires d’immatérialité associés à l’IA contribuent à masquer7. Elles sollicitent des serveurs pour le stockage des données d’entrainement et des informations traitées ; elles supposent le déploiement d’une puissance de calcul inégalée, sous forme de processeurs graphiques ; elles font appel à des dispositifs de communication allant de systèmes filaires locaux aux réseaux de fibre optique transatlantique. Le développement d’une IA publique repose ainsi sur un assemblage matériel complexe, associant ressources préexistantes et composantes ad hoc, entremêlées à différentes échelles. Le chantier de déploiement d’une telle infrastructure est pris en charge par les institutions publiques depuis le milieu des années 2010, par le biais de programmes à la fois locaux et transversaux. Alors que certaines institutions publiques, à l’instar de la Cour de cassation, s’équipent individuellement de serveurs de stockage et de calcul dédiés, des dispositifs interministériels de mutualisation des ressources à grande échelle voient le jour. C’est le cas, par exemple, du supercalculateur Jean Zay ou encore des entrepôts – ou « lacs » – de données inter-administrations.

La construction d’une telle infrastructure globale s’accompagne de nombreuses problématiques politiques et opérationnelles : les infrastructures numériques portent en effet dans leurs architectures les choix politiques et organisationnels qui ont présidé à leur déploiement. Dans le cas de l’IA publique, nombre de ces choix font l’objet de controverses et de débats au sein d’arènes réunissant des acteurs pluriels : cabinets ministériels, services interministériels, organisations internationales, entreprises privées, régulateurs, associations, lobbies, etc. La matérialité des infrastructures de l’IA contraint à des arbitrages concernant la localisation géographique et institutionnelle des données, l’attribution des responsabilités pour leur traitement, ou encore les modalités d’interconnexion entre organisations – à l’intérieur et à l’extérieur des frontières du secteur public.

Les techniques d’apprentissage automatique reposent sur d’importantes infrastructures (serveurs, processeurs graphiques, fibres optiques, etc.).

Au cœur de ces questions se trouve un enjeu fondamental pour le service public : celui de la souveraineté de l’IA et des données sur lesquelles celle-ci repose. Celui-ci se décline selon des modalités particulières aux différents niveaux de l’infrastructure. Qu’il s’agisse de la mutualisation des données de plusieurs tribunaux par le ministère de la Justice dans un datacenter commun, ou des controverses entourant la sous-traitance du health data hub à l’Azure cloud de Microsoft – configuration ayant initialement motivé un avis négatif de la Commission nationale de l’informatique et des libertés (CNIL), s’opposant à l’hébergement sur le territoire étasunien de données de santé à caractère sensible – transparaissent en filigrane des choix d’infrastructure des rapports de pouvoir institutionnels. La construction de l’infrastructure de l’IA publique met ainsi en lumière des tensions sous-jacentes, entre public et privé, national et international, local et centralisé, pôles dont émergent des compromis temporaires se faisant le reflet des équilibres de pouvoir en présence.

Parallèlement aux enjeux institutionnels et organisationnels, la mise en place d’une infrastructure massive pour l’IA pose d’importantes questions en termes environnementaux. Les infrastructures du « cloud », d’apparence immatérielle, sont gourmandes en ressources naturelles, qu’elles soient minières, énergétiques ou territoriales. Leur déploiement suppose ainsi pour les acteurs publics de répondre à des problèmes inédits, tels que les pénuries d’eau engendrées par les systèmes de refroidissement des datacenter, les nuisances visuelles et sonores pour les populations installées à proximité des datahub, ou encore les tentatives d’extraction nationale de métaux précieux liés au numérique. La visibilisation des infrastructures matérielles de l’IA constitue ainsi un enjeu essentiel à l’ouverture d’une réflexion collective concernant les impacts environnementaux de ces dispositifs techniques et leur évaluation, rendue obligatoire par le AI Act.

Travail des données et conception algorithmique

L’infrastructure matérielle de l’IA constitue le cadre dans lequel se coulent les modèles algorithmiques. Ceux-ci fonctionnent en pratique à partir du traitement à grande échelle d’objets informationnels, qui font en amont l’objet de multiples traitements en vue de leur instauration en données de l’IA. De nombreux acteurs aux expertises professionnelles multiples (data scientists, professionnel·les de terrain, annotateur·rices, etc.) interviennent le long de cette chaîne de transformation et contribuent à orienter les résultats algorithmiques.

Mise en bases de données

Qu’il s’agisse du texte de décisions de justice, des images captées par les caméras de vidéosurveillance ou des curriculum vitae des allocataires de Pôle emploi, les objets informationnels mobilisés au cours de l’apprentissage algorithmique sont soumis à un formatage pour servir de données d’entrainement de l’IA. Les bases de données d’apprentissage répondent à des normes standardisées qui diffèrent fortement des formes dans lesquelles les informations sont habituellement conservées et traitées par les administrations (dossiers papiers, documents Excel, serveurs locaux, etc.). Ces éléments aux contenus et formes hétérogènes sont ainsi soumis à un processus de « brutification » 8 : il s’agit de les extraire des agencements localisés dans lesquels ils sont pris, de les centraliser et de les homogénéiser au sein de bases de données dédiées, et de les formater en vue d’un traitement algorithmique. Ces processus sont jalonnés d’épreuves, bien documentées dans le cas de l’open data, qui conduisent à transformer substantiellement les objets concernés. Les opérations de mise en base de données sont traversées de choix, qui contribuent à déterminer ce qui a vocation à être pris en compte et ce qui, au contraire, sera invisibilisé dans le traitement algorithmique.

Catégorisation et annotation

Dans le cas de l’apprentissage supervisé – technique la plus fréquemment utilisée –, les données rassemblées en bases doivent ensuite faire l’objet d’une annotation manuelle afin d’orienter la machine dans ses opérations de traitement de l’information. Dans l’exemple classique de la reconnaissance visuelle, les modèles sont entrainés à partir de milliers d’images sur lesquelles les éléments « saillants » ont été identifiés en amont par des travailleur·ses9. Fastidieuse et répétitive, l’activité d’annotation est souvent associée à des formes de travail souvent précaires, sous-rémunérées et délocalisées, qui exercent une influence décisive sur le fonctionnement des algorithmes.

Plusieurs administrations publiques se sont en effet engagées dans des opérations d’annotation de données pour l’IA, selon des modalités variées : la Cour de cassation s’est dotée d’une équipe de 20 agents de catégorie C pour l’annotation de décisions de justice en vue de leur pseudonymisation ; après avoir eu recours à un prestataire extérieur, la direction générale des finances publiques (DGFP) sollicite ses géomètres pour l’identification de piscines sur des images satellitaires, afin d’entrainer un outil de lutte contre la fraude fiscale l’annotation d’images satellitaires de parcelles foncières en vue de l’automatisation de la détection de piscines non déclarées ; le codage des actes réalisés à l’hôpital au sein des départements d’information médicale sert, dans certains cas, à l’entrainement de modèles algorithmiques développés par des prestataires privés ; dans certains cas, des collectifs citoyens sont impliqués directement dans les processus de catégorisation.

L’annotation des données de l’IA contribue à façonner la représentation du monde sur laquelle se baseront les traitements d’algorithmes. Souvent qualifiées de « ground-truth », les bases de données annotées constituent le socle conceptuel que les algorithmes chercheront à reproduire. Annoter les données pour l’IA suppose de faire coïncider les éléments concrets issus des données avec un système de catégories théorique et général. Dans ce processus émergent régulièrement blocages, doutes, enquêtes, négociations et choix, à travers lesquels les acteurs en charge de cette activité orientent le fonctionnement des algorithmes. À ce titre, l’activité d’annotation occupe une place centrale au sein de ce projet de recherche, en tant que socle conceptuel des outils d’IA.

Entrainement des modèles

Finalement, les bases de données annotées font l’objet d’un traitement par modèles d’apprentissage automatique. Cette étape implique le recours à des professionnel·les de la data science, métier nouveau dans le service public : l’intégration de data scientist au référentiel des métiers de la fonction publique date des années 2010. Ces professionnel·les travaillent à partir de modèles développés par des organismes tiers, souvent de grandes entreprises du Web (modèles Flair de Zalando Roberta de Facebook ou Bert de Google, par exemple), qu’il s’agit d’optimiser à partir des données produites localement. Le recours à ces instruments inscrit donc les institutions publiques dans des réseaux organisationnels souterrains, dessinant de nouvelles formes de partenariats public-privé. Optimiser les modèles algorithmiques repose, pour les data scientists, sur un travail d’expérimentation empirique par tâtonnements qui s’apparente à une activité de bricolage visant à faire coïncider aux mieux modèles, paramètres et données.

L’infrastructure matérielle de l’IA constitue le cadre dans lequel se coulent les modèles algorithmiques.

De la constitution des bases de données à l’entrainement des modèles algorithmiques, la fabrique de l’IA mobilise de nombreux acteurs, qui se confrontent quotidiennement à une diversité d’épreuves pour faire tenir le dispositif d’IA. Chacune de ces étapes est le lieu de doutes, d’enquêtes, de choix, d’erreurs et d’ajustements qui donnent progressivement corps aux outils en orientant les résultats produits. Ces activités engendrent de constants allers-retours le long de la chaîne de production, au gré d’efforts localisés ou plus globaux d’articulation de l’ensemble des composantes du projet. Derrière les représentations d’autonomie qui l’accompagnent, l’IA repose donc sur la mobilisation pérenne de ressources humaines considérables, qui donnent forment aux dispositifs algorithmiques.

Comprendre l’IA pour mieux l’orienter

Les infrastructures de l’IA, les acteurs impliqués dans la fabrique algorithmiques ainsi que leurs activités disparaissent à l’intérieur de la boite noire que constituent les dispositifs algorithmiques une fois ceux-ci rendus opérationnels. Cette invisibilisation conduit à focaliser l’attention, notamment en termes d’encadrement et de régulation, sur les modèles algorithmiques, au détriment des opérations de cadrage réalisées en amont dans la chaîne de production. Pourtant, le suivi des infrastructures matérielles de l’IA, du travail de conception des jeux de données et des algorithmes, et des configurations organisationnelles qui sous-tendent ces processus offre des prises essentielles pour la compréhension et, le cas échéant, la critique des dispositifs algorithmiques. Il ouvre des pistes fertiles de réponse aux impératifs de transparence et d’explicabilité des nombreux dispositifs d’IA développés au sein des institutions publiques. En ce sens, les algorithmic studies, qui s’intéressent de façon large aux activités de conception et d’usage algorithmiques, constituent une ressource précieuse pour l’analyse du développement de l’IA public – ouvrant une opportunité particulière de synergie entre recherche et administration publique.

  1. Elle a soutenu sa thèse en décembre 2023 : La fabrique sociale de l’intelligence artificielle. Concevoir et mettre en œuvre une justice prédictive.
  2. Villani C., Qu’est-ce que l’intelligence artificielle ?, rapport, 2018, AI For Humanity.
  3. Mabi C., « L’État doit-il être une “plateforme” pour innover ? : Réflexions à partir de l’étude du programme des “Entrepreneurs d’intérêt général” », in Theviot A. (dir.), Gouverner par les données ? Pour une sociologie politique du numérique, 2023, ENS éditions, Gouvernement en question(s).
  4. Voir l’état des lieux dressé dans Cave S., Kanta Dihal K. et Dillon S., AI Narratives. A History of Imaginative Thinking about Intelligence Machines, 2020, Oxford University Press.
  5. Thèse décrite dans Ganascia J.-G., Le mythe de la Singularité. Faut-il craindre l’intelligence artificielle ?, 2017, Seuil.
  6. Discours du président de la République Emmanuel Macron, 29 mars 2023, Collège de France.
  7. Voir la cartographie des composantes d’une enceinte Amazon Echo, réalisée par Kate Crawford et Vladan Joler : https://anatomyof.ai/
  8. Selon les termes du sociologue Jérôme Denis : Le travail invisible des données. Éléments pour une sociologie des infrastructures scripturales, 2018, Presses des Mines, Sciences sociales.
  9. C’est ce que montrent les travaux de Florian Jaton dans l’ouvrage The Constitution of Algorithms. Ground-Truthing, Programming, Formulating, 2021, The MIT Press.
×

A lire aussi