Quand l’intelligence artificielle se met au service de l’anonymisation des décisions de justice

Le 25 février 2019

L'Assemblée nationale a adopté en lecture définitive le projet de loi de programmation 2018-2022 et de réforme pour la justice, le 19 février 2019. Ce projet de loi comporte dans sa section 3 « Concilier la publicité des décisions de justice et le droit au respect de la vie privée » de nouvelles dispositions relatives aux décisions de la justice administrative et des juridictions judiciaires qui vont entraîner un changement d’échelle dans cette publicité.

Le texte prévoit notamment une modification du code de l’organisation judiciaire, et plus précisément du début de l’article L. 111-13, ainsi rédigée : « Sous réserve des dispositions particulières qui régissent l’accès aux décisions de justice et leur publicité, les décisions rendues par les juridictions judiciaires sont mises à la disposition du public à titre gratuit sous forme électronique ». « Les nom et prénoms des personnes physiques mentionnées dans la décision, lorsqu’elles sont parties ou tiers, sont occultés préalablement à la mise à la disposition du public. Lorsque sa divulgation est de nature à porter atteinte à la sécurité ou au respect de la vie privée de ces personnes ou de leur entourage, est également occulté tout élément permettant d’identifier les parties, les tiers, les magistrats et les membres du greffe ».

Alors qu’environ 15 000 décisions judiciaires environ sont diffusées tous les ans sur Légifrance, près de 3,9 millions de décisions sont rendues sur la même période. Le changement d’échelle introduit par les dispositions en cours d’élaboration implique un saut technologique, en faisant appel, pour l’anonymisation, à des techniques d’intelligence artificielle et en particulier d’apprentissage automatique.

La Cour de cassation entend se mettre en mesure d’assurer la diffusion, à l’avenir, d’un volume de décisions aussi important. Depuis un an, la Cour procède elle-même à l’anonymisation des décisions de justice judiciaires diffusées sur Légifrance et accessibles en open data. Cette opération, qui consiste à occulter les éléments identifiants directs (noms, adresses…), est effectuée à l’aide d’un logiciel développé dans le cadre d’un marché public et d’une « cellule de l’anonymisation » chargée de contrôler et de corriger les résultats.

En partenariat avec le ministère de la justice, la Cour de cassation a été retenue pour participer au programme « Entrepreneurs d’intérêt général » piloté par la mission publique ETALAB. Deux data scientists et un développeur informatique sont accueillis pendant une durée de 10 mois par la Cour afin de mettre en œuvre ces projets innovants. Leur mission portera notamment sur :

  • l’amélioration des techniques de reconnaissance automatique pour passer d’une approche par règles des termes à anonymiser à une approche par apprentissage automatique (preuves de concept déjà développées sur l’identification de la structure des décisions de justice, leur thème et les éléments à occulter) ;
  • le développement d’algorithmes de pseudonymisation automatique des données : grâce à des techniques de machine learning et de traitement du langage naturel ;
  • le développement d’algorithmes visant à limiter le risque de réidentification et le nombre de décisions “mal” pseudonymisées ;
  • l’enrichissement des données en vue de leur diffusion en open data grâce à des métadonnées précises et structurées ;
  • la construction d’outils et d’interfaces à destination des équipes de la Cour de cassation en charge de la pseudonymisation et de la diffusion des décisions de justice.

Les résultats de ces travaux pourront largement bénéficier à d’autres types de données devant être pseudonymisées avant leur diffusion. Ils devraient transformeront en profondeur la diffusion de la jurisprudence tout en renforçant la cohérence des décisions rendues et la confiance des citoyens en l’autorité judiciaire.