Skip to main content
QUICK REVIEW

[論文レビュー] compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Lucie Termignon, Simonas Zilinskas|arXiv (Cornell University)|Feb 6, 2026
Mobile Crowdsensing and Crowdsourcing被引用数 0
ひとこと要約

この論文は、large-scale French prompts と人間の嗜好を収集するフランス語公開LLMアリーナである compar:IA を紹介し、研究用および多言語拡張のためのオープ datasets を公開する。

ABSTRACT

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

研究の動機と目的

  • RLHF / DPO 型トレーニングのためのフランス語ヒューマン・プレファレンスデータの不足を解消する。
  • フランス語の prompts と preferences を収集・フィルタリング・公開するアクセス可能な公共インフラを提供する。
  • 研究・開発・評価のためにオープンライセンスの会話・票・反応というオープ datasets を公開する。
  • 参加の摩擦を最小限に抑えつつプライバシーを保護するプラットフォーム設計を示す。
  • データプラットフォームのガバナンスモデルと多言語拡張の可能性を探る。

提案手法

  • unconstrained prompts と blind side-by-side model comparisons のためのプラットフォーム設計とユーザーインタラクションフローを説明する。
  • 個人データを含む会話を除去するプライバシー保護型の事後データフィルタリングパイプラインを実装する。
  • 三つの補完的な open datasets(conversations, votes, reactions)を Hugging Face と data.gouv.fr に Etalab 2.0 ライセンスの下で公開する。
  • Bradley–Terry スタイルのランキングを用いた集計済みペアワイズ・プレファレンスに基づくモデルリーダーボードを提供する。
  • 実際のフランス語 LLМ の使用状況を示すためにユーザーインタラクションパターンとトピックを分析する。
  • 長期の公共利用とスケーラブル推論を支えるためにバックエンドインフラの Gradio から FastAPI/SvelteKit への進化を記録する。
(a) Enter a prompt.
(a) Enter a prompt.

実験結果

リサーチクエスチョン

  • RQ1一般の公開LLMアリーナの低摩擦アプローチを通じて、どれだけのフランス語データを収集できるか?
  • RQ2大規模なフランス語 prompts / preferences データセットにおける prompts、言語、トピックの分布はどうなるか?
  • RQ3blind ペアワイズ比較と反応信号をどのように活用して使えるリーダーボードと評価インフラを構築できるか?
  • RQ4どのようなプライバシー保護およびガバナンス技術が、リスクを緩和しつつ prompts と preferences の公開を可能にするか?
  • RQ5このプラットフォームはフランス語を超えた「オープンAI評価のための多言語・国際的な公共善」として機能し得るか?

主な発見

  • 2026-02-07 時点で、compar:IA は 600,000 を超える自由形式 prompts と 250,000 票超の嗜好投票を収集し、データの 89% がフランス語であった。
  • 104 のモデル(29 は独自/所有、他はオープンウェイト/オープンソース)がプラットフォーム上の side-by-side 比較に利用可能だった。
  • 3 つのオープ dataset が公開され、comparia-conversations、comparia-votes、comparia-reactions は Hugging Face と data.gouv.fr 二つのプラットフォームで Etalab 2.0 ライセンスの下でホストされた。
  • 最初のモデルリーダーボードは 2025年11月に公開され、ペアワイズのプレファレンスを集計して週次で更新された。
  • Bunka.ai との協力により 175,000 会話をマッピングし、学習・助言求め・コンテンツ生成・情報検索という四つの支配的な相互作用タイプを明らかにした;相互作用は主に補助的であり、完全自動ではない。
  • プラットフォームはプライバシーを重視し、検出された個人情報のため約 5% の会話を除外する保守的なデータフィルタリングパイプラインを採用している。
(b) Blind side-by-side responses.
(b) Blind side-by-side responses.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。