Compar:IA

Interroger à l'aveugle deux modèles de langage conversationnels sur des tâches exprimées en français et comparer les résultats.

comparia.beta.gouv.fr

Produit en accélération

Le problème

Les grands modèles de langage (LLM) actuels sont entraînés sur des données essentiellement anglo-saxonnes, ce qui crée des biais linguistiques et culturels dans les résultats qu’ils produisent. Le développement extrêmement rapide des audiences et des usages de ces modèles, vecteurs d’une vision d’une monde non neutre, fait peser un risque sur la place des langues et des cultures française, francophone et européenne dans les imaginaires collectifs de demain.

Ces questionnements font écho à un second irritant identifié auprès des fournisseurs de modèles et de services issus de ces modèles : la difficile mise en œuvre de l’évaluation humaine des modèles sur des tâches en français. Cette évaluation humaine, coûteuse et complexe, sur des aspects spécifiques à la culture et la langue française (ou aux langues européennes) est hors de portée de la plupart des fournisseurs de modèle alors que la majorité des corpus d’évaluation existants sont en anglais, présentent un risque de contamination et ne sont pas toujours alignés avec les usages et attentes des utilisateurs.

L’amélioration de la qualité des modèles de langage conversationnels sur les usages francophones passe par la mise à disposition de jeux de données de préférence en français pour l’alignement des modèles, ressource actuellement rare pour l’écosystème des acteurs académiques et industriels qui travaillent sur ces sujets.

Le service

Le site https://comparia.beta.gouv.fr permet de tester et comparer les réponses de deux agents conversationnels piochés parmi plus d’une vingtaine de modèles open source comme propriétaires et de différentes tailles. Une fois le choix de préférence exprimé sur l’un ou l’autre des modèles, l’identité des modèles est révélée à l’utilisateur, accompagnée d’informations sur les caractéristiques des modèles et leur impact environnemental.

Les questions posées et données de préférence collectées alimentent des jeux de données repartagés en open source, dans l’idée de constituer un commun numérique qui favorise l’observation des usages et la qualité des modèles sur les usages francophones. Ces données constituent une ressource rare pour l’écosystème car elles sont en français et reflètent les usages réels des utilisateurs dans des contextes d’utilisation non contraints.

Le site comparIA est gratuit, accessible sans création de compte et répond à un triple enjeu :

Donner accès simplement à une grande diversité de modèles conversationnels dans le principe de défense d’un « droit au pluralisme des modèles »
Informer l’utilisateur sur les caractéristiques des modèles et leur impact environnemental pour encourager des usages responsables
Collecter des données de questions et de préférence et partager les jeux de données sous licence ouverte pour en faire bénéficier l’écosystème

Le service sert ainsi un double objectif:

Former les citoyens à l’utilisation des systèmes d’IA conversationnelle et les sensibiliser à divers enjeux : le pluralisme des modèles, leur impact environnemental, les biais culturels et linguistiques qu’ils comportent.
Publier les jeux de données de question et de préférence pour faciliter l’observation des usages et améliorer la qualité des systèmes d’IA **conversationnelles sur les usages **francophones

Ouvert au public en octobre 2024, le site compte plus de 150 000 visiteurs uniques. Le jeu de données de questions compte plus de 200 000 lignes et le jeu de données de préférence plus de 90000 lignes (chiffres actualisés le 16 avril 2025).

La stratégie

La mesure d’impact de compar:IA réside dans le nombre de questions et de préférence collectées, reflétant à la fois la fréquentation du site et la volumétrie des jeux de données partagés.

Les jeux de données ont d’ores et déjà atteint une volumétrie conséquente: 100 000 votes et plus de 200 000 questions. A titre de comparaison, la part du français dans le jeu de données “lmsys-chat-1m” qui fait autorité sur les enjeux d’alignement est de 1,5%, soit moins de 20 000 conversations en français. Les jeux de données compar:IA constituent une ressource rare et exploitable à la fois par les acteurs industriels et académiques (machine learning et sciences humaines et sociales).

Pour assurer une fréquentation assidue de la plateforme et faire grandir la volumétrie des jeux de données, plusieurs leviers de croissance et d’accélération du service ont été activés depuis le lancement du service en octobre 2024:

Diversification des partenariats de diffusion et intégration de comparIA dans différents formats de sensibilisation et formation à l’IA générative.
- En plus de PIX, des partenariats et collaborations sont en cours de développement avec les acteurs suivants: CNNUM, CLEMI, Campus du numérique, CAIRE, Latitudes, Datactivist, La Fresque de l’IA, UNESCO. Les contacts sont également pris avec le Réseau Canopé, BPI France Université, l’Institut Français.
- Conception et diffusion d’un support de médiation facilitant l’utilisation de comparIA dans des contextes de formation professionnelle et/ou d’enseignement.
Développement de nouvelles fonctionnalités selon l’évolution des usages et des besoins et dans le cadre de projets mutualisés avec des acteurs partenaires:
- L’intégration d’une fonctionnalité de classement des modèles issu des données de préférence collectées fait l’objet d’un chantier en cours en partenariat avec le PEReN (travaux débutés en 03/2025).
- des synergies sont à construire avec le projet ALBERT afin par exemple de mettre comparIA au service du test et de l’évaluation des systèmes conversationnels spécialisés développés au Datalab.
Intégration continue de nouveaux modèles: évolution de la plateforme en fonction des nouvelles capacités des modèles pour faciliter leur compréhension auprès des utilisateurs (ex: modèles de raisonnement)

Les indicateurs de résultat permettant d’évaluer l’atteinte des objectifs du projet, d’ici octobre 2025, sont les suivants:

Réduire les biais culturel des grands modèles de langage grâce à l’exploitation des jeux de données: il s’agit d’ici six mois d’avoir qualifié au moins trois réutilisations à impact des jeux de données:
- Par exemple faire en sorte qu’au moins deux grands éditeurs de modèles aient utilisé les jeux de données produits par Compar’IA pour l’entraînement de la version suivante de leur modèle ;
- Observatoire des usages en fonction d’indicateurs et de métriques construites en synergie avec les acteurs pertinents (CNNUM, LaborIA…) facilitant l’analyse des données collectées et facilitant la valorisation des jeux de données auprès des acteurs académiques et industriels.
Passage à l’échelle du module Compar’IA sur de nouvelles langues: Un jeu de données est publié dans une langue européenne ou issue de la francophonie (avec une mention d’excellence si la langue européenne est rare). Cible : 50k lignes de questions.

Les services produits par la start-up s’inscrivent dans les prérogatives des établissements LANGU:IA et ALT-EDIC en cours de structuration.

À propos

Compar:IA est portée par L'Atelier Numérique du Ministère de la Culture.

Ce service numérique est sponsorisé par Direction interministérielle du numérique , Ministère de la Culture

Contacter l'équipe

Transparence

Code source
Statistiques d'usage
Suivi des bonnes pratiques
Technologies utilisées : kubernetes - python - gradio - fastapi - svelte
Budget (non disponible)
Statistiques d'impact (non disponible)
Analyse de risque (non disponible)

Indicateurs de qualité

Accessibilité : non conforme
Sécurité : pas encore audité
Voir le suivi des bonnes pratiques

En quelques dates

Investigation
15 janvier 2024

Construction
15 avril 2024

Accélération
16 avril 2025

Transfert

Pérennisé

L'équipe

Aurélien Barot

Designer produit

Hadrien Pélissier

Dev @ LANGU:IA

Je suis le dev pour le lancement de l’arène de LLMs francophones LANGU:IA. Je dev via Coopaname, une mutuelle de travail salarié, je réfléchis au futur des réseaux sociaux décentralisés sur technostructures.org.

Compar:IA

Lucie Termignon

Intrapreneur - cheffe de produit

Compar:IA

Mathilde Bras

Co-Responsable de l'Atelier numérique / Product Ops

Numérique d’intérêt général

Compar:IA

Nicolas Chesnais

Développeur à Compar:IA

Développeur JS/TS/Python, contributeur aux logiciels libres YunoHost et au plugin livechat PeerTube, originellement designer graphique, intérêt particulier pour le dev d’interfaces, l’UI/UX et l’accessibilité.

Compar:IA

Simonas Žilinskas

Déploiement @ Compar:IA

“Product marketing manager” passionné d’open-source avec une double expertise technique et de gestion de communauté.

Compar:IA