Compar:IA

Interroger à l'aveugle deux modèles de langage conversationnels sur des tâches exprimées en français et comparer les résultats.

comparia.beta.gouv.fr

En consolidation

Le problème

Les grands modèles de langage (LLM) actuels sont entraînés sur des données essentiellement anglo-saxonnes, ce qui crée des biais linguistiques et culturels dans les résultats qu’ils produisent. Le développement extrêmement rapide des audiences et des usages de ces modèles, vecteurs d’une vision d’un monde non neutre, fait peser un risque sur la place des langues et des cultures française, francophone et européenne dans les imaginaires collectifs de demain.

Ces questionnements font écho à un second irritant identifié auprès des fournisseurs de modèles et de services issus de ces modèles : la difficile mise en œuvre de l’évaluation humaine des modèles sur des tâches en français. Cette évaluation humaine, coûteuse et complexe, sur des aspects spécifiques à la culture et la langue française (ou aux langues européennes) est hors de portée de la plupart des fournisseurs de modèle alors que la majorité des corpus d’évaluation existants sont en anglais, présentent un risque de contamination et ne sont pas toujours alignés avec les usages et attentes des utilisateurs.

L’amélioration de la qualité des modèles de langage conversationnels sur les usages francophones passe par la mise à disposition de jeux de données de préférence en français pour l’alignement des modèles, ressource actuellement rare pour l’écosystème des acteurs académiques et industriels qui travaillent sur ces sujets.

Le service

Le site https://comparia.beta.gouv.fr permet de tester et comparer à l’aveugle les réponses de deux agents conversationnels piochés parmi une grande diversité de modèles (plus de 130 modèles semi-ouverts, open source comme propriétaires et de différentes tailles ont été testés, avec une trentaine à une quarantaine de modèles actifs simultanément). Après avoir voté, l’identité des modèles est révélée à l’utilisateur, accompagnée d’informations détaillées sur les caractéristiques des modèles et leur impact environnemental.

Les questions posées et données de préférence collectées alimentent des jeux de données repartagés en open source, sous licence Etalab 2.0 et CC-BY 4.0, dans l’idée de constituer un commun numérique qui favorise l’observation des usages et la qualité des modèles sur les usages francophones. Ces données constituent une ressource rare pour l’écosystème car elles sont en français et reflètent les usages réels des utilisateurs dans des contextes d’utilisation non contraints.

Le site compar:IA est gratuit, accessible sans création de compte et répond à un triple enjeu :

  • Donner accès simplement à une grande diversité de modèles conversationnels dans le principe de défense d’un « droit au pluralisme des modèles »
  • Informer l’utilisateur sur les caractéristiques des modèles et leur impact environnemental pour encourager des usages responsables
  • Collecter des données de questions et de préférence et partager les jeux de données sous licence ouverte pour en faire bénéficier l’écosystème

Le service sert ainsi un double objectif:

  • Former les citoyens à l’utilisation des systèmes d’IA conversationnelle et les sensibiliser à divers enjeux : le pluralisme des modèles, leur impact environnemental, les biais culturels et linguistiques qu’ils comportent.
  • Publier les jeux de données de question et de préférence pour faciliter l’observation des usages et améliorer la qualité des systèmes d’IA conversationnelles sur les usages francophones

Ouvert au public en octobre 2024, le site compte plus de 400 000 visiteurs uniques. Le jeu de données de questions compte plus de 800 000 prompts collectés. compar:IA s’est par ailleurs vu décerner le statut de bien public numérique (Digital Public Good) par la Digital Public Goods Alliance en novembre 2025.

Le service évolue désormais d’un service public français vers un commun numérique multilingue et multi-sectoriel, conçu pour être déployable par tout gouvernement, secteur ou communauté linguistique. Le Danemark a ainsi lancé son propre déploiement (ai-arenaen.dk) en novembre 2025, première réplication internationale du modèle compar:IA.

La stratégie

La mesure d’impact de compar:IA réside dans le nombre de questions et de préférence collectées, reflétant à la fois la fréquentation du site et la volumétrie des jeux de données partagés.

Les jeux de données ont d’ores et déjà atteint une volumétrie conséquente: plus de 800 000 prompts collectés et plusieurs centaines de milliers de votes de préférence. A titre de comparaison, la part du français dans le jeu de données “lmsys-chat-1m” qui fait autorité sur les enjeux d’alignement est de 1,5%, soit moins de 20 000 conversations en français. Les jeux de données compar:IA constituent une ressource rare et exploitable à la fois par les acteurs industriels et académiques (machine learning et sciences humaines et sociales).

Pour assurer une fréquentation assidue de la plateforme et faire grandir la volumétrie des jeux de données, plusieurs leviers de croissance et d’accélération du service ont été activés depuis le lancement du service en octobre 2024:

  • Diversification des partenariats de diffusion et intégration de compar:IA dans différents formats de sensibilisation et formation à l’IA générative. compar:IA est notamment intégré aux parcours Pix IA : Pix intègre compar:IA dans ses modules d’apprentissage sur l’intelligence artificielle, permettant à des centaines de milliers d’élèves de découvrir, comparer et mettre à l’épreuve les IA conversationnelles directement depuis la plateforme. À travers ce partenariat, compar:IA accompagne Pix dans sa mission d’amener 1,5 million d’élèves chaque année vers un usage éclairé, raisonné et responsable de l’IA générative.
  • Développement de nouvelles fonctionnalités selon l’évolution des usages et des besoins et dans le cadre de projets mutualisés avec des acteurs partenaires (l’ensemble du code est ouvert et disponible sur GitHub). Les principaux chantiers en cours visent à rendre la plateforme pleinement réappropriable par d’autres organisations et communautés linguistiques : un back-office de personnalisation des arènes (gestion des modèles, des suggestions de prompts, des types de votes et des utilisateurs, configuration du pipeline de publication des données) ; des modes d’authentification et d’accès configurables (indispensables aux arènes sectorielles à accès restreint comme compar:IA Santé) ; un classement « 2.0 » et une cartographie des usages (classement personnalisé à partir de ses propres votes, analyse thématique des conversations) ; l’historique des conversations pour les utilisateurs connectés ; ainsi que la poursuite de l’internationalisation de l’interface.
  • Expansion sectorielle : une déclinaison compar:IA Santé est en cours de développement. Il s’agit d’une arène de comparaison de modèles à l’aveugle réservée aux professionnels de santé vérifiés, destinée à produire des jeux de données de préférence spécifiques au domaine médical. C’est le premier cas concret de la stratégie d’expansion sectorielle du projet.

Les indicateurs de résultat permettant d’évaluer l’atteinte des objectifs du projet sont les suivants:

  • Réduire les biais culturels des grands modèles de langage grâce à l’exploitation des jeux de données: il s’agit d’avoir qualifié au moins trois réutilisations à impact des jeux de données.

  • Passage à l’échelle du module compar:IA sur de nouvelles langues et de nouveaux secteurs

Les services produits par la start-up s’inscrivent dans les prérogatives des établissements LANGU:IA et ALT-EDIC en cours de structuration.

À propos

Compar:IA est porté par L'Atelier Numérique du Ministère de la Culture.

Ce service numérique est sponsorisé par Direction interministérielle du numérique , Ministère de la Culture

Contacter l'équipe

Standards de qualité

beta.gouv.fr définit des standards de qualité. Les indicateurs suivants montrent comment l’équipe les met en œuvre. Ces informations sont déclaratives.

  • Accessibilité 92 92%
  • Design 100 100%
  • Impact 100 100%
  • Qualité du support 100 100%
  • Qualité logicielle 90 90%
  • Sécurité 80 80%
  • Transparence 100 100%
  • Vie privée 67 67%
  • Équipe 100 100%
En savoir plus sur les standards
Transparence

En quelques dates

En investigation
15 janvier 2024

En construction
15 avril 2024

En accélération
16 avril 2025

En consolidation
3 juin 2026

L'équipe

Aurélien Barot

Designer produit

Élie Gavoty

DevOps Collectif Objets

Elie Gavoty passionné de développement logiciel et d’administration système depuis une dizaine d’années, se reconnaît dans l’impératif du DevOps de rapprocher ces deux univers trop souvent séparés. Son parcours de développeur backend l’a amené à expérimenter de l’intérieur d’une équipe les blocages techniques et humains liés à la trop grande spécialisation et au manque de formation. Il s’est ainsi orienté depuis 3 ans vers la formation et le consulting et se spécialise dans différentes technologies qui soutiennent la transformation DevOps des équipes, une meilleure maîtrise des infrastructures et de l’architecture logicielle (Kubernetes, Docker, Ansible, Terraform, CI/CD, …). Il est également contributeur à des logiciels libres, musicien numérique et ancien doctorant en philosophie de la technique. Il intervient de temps à autre dans le cadre de workshops et conférences, pour parler de technologie d’un point de vue théorique et pratique.

Elsa Le Duigou

Responsable de l'accompagnement des ministères (ALLiaNCE)

J’aide les administrations quand elles ont des cas d’usage IA adhérents à leur gestes métiers.

Lucie Termignon

Intrapreneur - cheffe de produit

Margaux Flamant

Chargée de déploiement à Compar:IA

Mathilde Bras

Co-Responsable de l'Atelier numérique / Product Ops

Numérique d’intérêt général

Nicolas Chesnais

Développeur à Compar:IA

Développeur JS/TS/Python, contributeur aux logiciels libres YunoHost et au plugin livechat PeerTube, originellement designer graphique, intérêt particulier pour le dev d’interfaces, l’UI/UX et l’accessibilité.

Simonas Žilinskas

Chef de produit @ Compar:IA

PM passionné d’open-source avec une double expertise technique et de gestion de communauté.