Skip to main content
QUICK REVIEW

[论文解读] compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Lucie Termignon, Simonas Zilinskas|arXiv (Cornell University)|Feb 6, 2026
Mobile Crowdsensing and Crowdsourcing被引用 0
一句话总结

该论文介绍了 compar:IA,一个法国公开的 LLM 领域,收集大规模法语提示与人类偏好,发布用于研究及多语言扩展的开源数据集。

ABSTRACT

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

研究动机与目标

  • 解决 RLHF/DPO 风格训练中法语人类偏好数据的稀缺性。
  • 提供一个可访问的公共基础设施,用于收集、筛选和发布法语提示与偏好。
  • 在开放许可下提供对话、投票、反应等开源数据集,供研究、开发和评估使用。
  • 展示能最小化参与摩擦、同时保护隐私的平台设计。
  • 探索治理模型以及数据平台在多语言扩展方面的潜力。

提出的方法

  • 描述平台设计和面向未经约束的提示及盲对比模型的用户交互流程。
  • 实现一个隐私保护的、后采集数据筛选管道,用于移除包含个人数据的对话。
  • 在 Hugging Face 和 data.gouv.fr 上以 Etalab 2.0 许可发布三组互补的开源数据集(对话、投票、反应)。
  • 提供基于聚合成对偏好、采用 Bradley–Terry 风格排序的模型排行榜。
  • 分析用户交互模式与主题,展示真实世界的法语语言 LLM 使用情况。
  • 记录从 Gradio 到 FastAPI/SvelteKit 的后端架构演进,以支持长期公开使用和可扩展推理。
(a) Enter a prompt.
(a) Enter a prompt.

实验结果

研究问题

  • RQ1通过一个低摩擦、公開 LLM 竞技场,普通公众能收集到多少法语数据?
  • RQ2在大规模法语提示/偏好数据集中,提示、语言和主题的分布情况如何?
  • RQ3如何利用盲对比和反应信号构建可用的排行榜和评测基础设施?
  • RQ4哪些隐私保护与治理技术能够在降低风险的同时实现 prompts 与偏好数据的开放发布?
  • RQ5该平台能否作为面向全球的多语言公共产品,为开放 AI 评测提供支持,超越法语领域?

主要发现

  • 截至 2026-02-07,compar:IA 已收集超过 60 万条自由文本提示以及超过 25 万票偏好数据,其中 89% 的数据为法语。
  • 平台上共有 104 个模型(29 个为私有,其余为开源/开放权重),可进行并排比较。
  • 发布了三组开源数据集:comparia-conversations、comparia-votes、comparia-reactions,托管于 Hugging Face 与 data.gouv.fr,采用 Etalab 2.0 许可。
  • 首个模型排行榜在 2025 年 11 月发布,并以聚合成对偏好每周更新。
  • 与 Bunka.ai 的合作将 175,000 条对话映射出四种主导交互类型:学习、寻求建议、内容生成、信息检索;交互本质上偏向辅助性而非完全自主。
  • 平台强调隐私,采用保守的数据筛选管道,约排除 5% 的对话因检测到可识别信息(PII)。
(b) Blind side-by-side responses.
(b) Blind side-by-side responses.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。