Revue
DossierDe la collecte à l’utilisation des données : répondre aux défis éthiques de la fabrique des IA
Les intelligences artificielles (IA) promettent l’accès rapide et simplifié à une quantité de données rendues opérantes grâce à des modèles performants. À quel point ces nouveaux outils, qui facilitent le processus de décision publique, peuvent-ils aussi le biaiser à l’insu du décideur ? Que cache la conception des IA ? Comment dépasser leurs biais ?
Lors de l’édition 2024 de Numérique en Commun[s] à Chambéry (voir encadré), une table ronde a été consacrée aux enjeux éthiques propres à la façon dont les IA sont pensées, fabriquées et déployées. Animée par le journaliste Xavier de la Porte, elle a permis de décortiquer la donnée comme matériau fondamental de l’IA, en croisant l’expertise de quatre intervenants : Maryse Carmes, Mathilde Bras, Benjamin Guedj et Hubert Guillaud.
Des bases de données surdimensionnées pour des traitements énergivores
La conception des intelligences artificielles génératives (IAG) repose sur des « supercalculateurs » afin d’entraîner des machines à traiter des bases de données de tailles très conséquentes : les corpus d’entraînement. Un grand nombre d’unités centrales, regroupées par des milliers d’interconnexions, permet de générer « des calculs probabilistes » très complexes, a expliqué Hubert Guillaud, journaliste, pilote du média danslesalgorithmes.net et délégué général de l’association Vecteur. Cette capacité de traitement est inédite, car elle s’appuie sur une puissance informatique « que nous n’avions pas il y a encore quelques années », a rappelé Benjamin Guedj, directeur scientifique du Centre d’IA de l’université de Londres et chercheur à l’Institut national de recherche en informatique et en automatique (INRIA).
L’ampleur des corpus d’entraînement génère des consommations d’énergie considérables lors des phases d’apprentissage. Les centres de données et leurs réseaux de transmission font appel à des sources d’énergie carbonées : cela les rend responsables de 1 % des émissions mondiales de gaz à effet de serre1. Pour Benjamin Guedj, « le coût environnemental et énergétique des modèles n’est pas soutenable », et la nécessité de ce coût mérite d’être interrogée : les corpus d’entraînement, qui en viennent à « saturer la machine d’informations », ne sont-ils pas dès lors surdimensionnés par rapport à l’usage qui en sera fait en bout de chaîne ?
La conception des intelligences artificielles génératives (IAG) repose sur des « supercalculateurs » afin d’entraîner des machines à traiter des bases de données de tailles très conséquentes : les corpus d’entraînement.
Un cycle de vie des données en proie à de nombreux biais
Au-delà de leur quantité, les données utilisées par les IAG soulèvent des questions éthiques quant à leur nature. Pour Maryse Carmes, maîtresse de conférences et responsable pédagogique de cursus sur l’innovation numérique au Conservatoire national des arts et métiers (CNAM), « la notion de donnée brute est un oxymore ». Reprenant le constat de Bruno Latour, pour qui les données ne sont jamais « données » mais « obtenues » 2, les intervenants ont abordé le cycle de vie des données, de leur collecte à leur réutilisation, en passant par leur traitement et leur analyse3. À chaque étape, les choix opérés traduisent « des biais culturels et linguistiques […] inhérents à la manière dont notre culture s’est créée et mondialisée », a expliqué Mathilde Bras, coresponsable de l’Atelier numérique et chargée des opérations produites au sein du ministère de la Culture.
Dès l’étape de la collecte, la non-représentativité des corpus, à 90 % anglophones4, pose problème. Puis, lors du traitement, le modèle d’IA applique des corrections aux données, variables selon les algorithmes, mais pouvant omettre certaines informations ou renforcer certaines erreurs, selon la manière dont il interprète les données5. Cela peut, par la suite, « biaiser certaines réponses » selon Benjamin Guedj, qui a rappelé que « les modèles de langage LLM6 n’ont pas de capacité de raisonnement, donc pas de garde-fous », ce qui les rend perméables à des utilisations peu éthiques. Par ailleurs, la politique de réutilisation, par le constructeur, des données renseignées par l’utilisateur dans une IA conversationnelle doit faire l’objet d’une attention particulière, notamment lorsqu’il s’agit de données sensibles.
Au total, ces différents biais peuvent avoir un effet discriminant et renforcer certaines inégalités s’ils ne sont pas pris en compte dans la manière de formuler la décision publique. L’outil prédit un comportement moyen et cette « moyennisation » mène en réalité à une surreprésentation de certains points de vue dans les réponses fournies, sans que cela ne soit toujours clairement perceptible.
De l’approche par les usages à la gouvernance locale des données
Pour corriger le biais de représentativité et son effet discriminant, une démarche consiste à replacer l’utilisateur et ses usages au cœur de l’amélioration des modèles. Le projet Compar : IA7 permet, par exemple, de comparer des IA conversationnelles entre elles et à l’aveugle, puis d’exprimer une préférence pour l’une d’entre elles à la lumière des réponses fournies. L’objectif est d’améliorer la prise en compte de la diversité des langues et cultures, notamment francophones. Ces préférences d’utilisateurs seront ensuite transmises aux constructeurs partenaires du projet, afin qu’ils puissent « s’aligner pour dé-biaiser », a conclu Mathilde Bras.
Le projet Compar:IA permet, par exemple, de comparer des IA conversationnelles entre elles et à l’aveugle, puis d’exprimer une préférence pour l’une d’entre elles à la lumière des réponses fournies.
Reconsidérer l’échelle de gouvernance des données pourrait constituer une autre piste. Au lieu de s’appuyer sur une autorité centralisant toutes les données disponibles, il pourrait être pertinent de tester de petits modèles de langage destinés à un nombre restreint d’utilisateurs. Ces derniers resteraient propriétaires des données qui ne seraient pas mises en commun et le modèle s’ajusterait en fonction de leurs usages spécifiques. Pour Benjamin Guedj, qui parle « d’apprentissage décentralisé », ces modèles seraient « peut-être moins performants, moins facilement utilisables pour d’autres tâches ». Ils auraient toutefois le mérite de préserver la confidentialité des données, d’être plus représentatifs de contextes locaux et moins énergivores.
Les sciences participatives, une piste pour cocréer les données de l’IA ?
Débattre de la manière dont on acquiert les données suppose de définir au préalable un objectif dans leur utilisation. Maryse Carmes a dressé un parallèle avec les débats sur l’open data : d’abord « très centré sur l’injonction à ouvrir les données », le discours a progressivement glissé « sur les domaines d’application et les cas d’usage ». Benjamin Guedj a souligné l’importance de faire converger deux visions, entre, d’une part, le monde de la recherche qui formule les questions à résoudre avant de choisir les données à collecter et, d’autre part, l’action publique qui dispose parfois de données dont l’objectif d’utilisation reste à définir.
Les sciences participatives, au sein desquelles les membres de la société civile sont acteurs à part entière des processus de production scientifique8, constituent une voie utile pour hybrider les données de la recherche, celles de l’action publique et celles de source citoyenne. Ces dispositifs permettent de cocréer des données, voire de cocréer des processus de collecte de données : « On va discuter avec les chercheurs de la question du protocole d’acquisition », a précisé Maryse Carmes. « C’est assez facile de prendre le pouvoir sur les données à partir du moment où on les produit », a-t-elle ajouté. Les sciences participatives pourraient alors inciter les citoyens à se saisir de ces nouveaux outils que sont les IA pour investir ou réinvestir le débat public sur leurs finalités.
L’essor des IA pose certes l’enjeu crucial de s’interroger sur la nature et la finalité des données colletées.
L’essor des IA pose certes l’enjeu crucial de s’interroger sur la nature et la finalité des données collectées. Il amène surtout à réfléchir, comme le propose Benjamin Guedj, à la « façon dont on programme la décision publique avec un objet technique ».
Numérique en Commun[s], l’ambition de fédérer autour d’un numérique d’intérêt général
Porté par le programme Société numérique de l’Agence nationale de la cohésion des territoires (ANCT), Numérique en Commun[s] est un événement national annuel qui rassemble une diversité d’acteurs souhaitant se rencontrer, échanger, s’acculturer ou s’outiller sur les enjeux de la transition numérique. L’édition 20249, qui s’est tenue les 25 et 26 septembre à Chambéry, était placée sous le signe d’un numérique d’intérêt général. Elle a réuni 343 intervenants et 1 600 visiteurs : acteurs publics, collectivités, associations, entreprises, chercheurs et citoyens. Outre la table ronde « Grand format » restituée dans cet article, les impacts de l’IA sur le management des collectivités locales ont aussi fait l’objet de deux formats « Regards croisés ». L’un portait sur la manière dont les outils d’IA modifient la relation entre les agents publics et les usagers, l’autre était centré sur les liens entre l’open data et l’alimentation des IAG. Un atelier a par ailleurs été dédié à la formalisation de propositions pour rendre les outils d’IA plus en adéquation avec les principes du service public.
- Agence internationale de l’énergie (IEA), Data Centres and Data Transmission Networks, 2023.
- « Décidément, on ne devrait jamais parler de “données” mais “d’obtenues” » ; cette citation de Bruno Latour ouvre le dernier chapitre de l’ouvrage de Jérôme Denis, Le travail invisible des données. Éléments pour une sociologie des infrastructures scripturales, 2018, Presses des Mines.
- Centre de recherche informatique de Montréal (CRIM), Science des données (consulté le 6 déc. 2024).
- Joux A., « Les données de l’IA, un enjeu de souveraineté culturelle », Revue européenne des médias et du numérique 2024, no 69-70.
- IBM, What is algorithmic bias ?, 2024.
- Les LLM (large language models) sont des modèles d’apprentissage automatique capables de comprendre et générer des textes en langage humain (sources : IGN, Cloudfare).
- Compar : IA a été lancé en octobre 2024, et développé dans le cadre d’une start-up d’État intégrée au programme beta.gouv.fr de la Direction interministérielle du numérique (DINUM) et en partenariat avec le ministère de la Culture.
- Houllier F. et Merilhou-Goudard J.-B., « Les sciences participatives en France », culture.gouv.fr 10 mars 2016.
- Toutes les informations, ressources et vidéos de l’événement sont disponibles sur : https://numerique-en-communs.fr/