QUICK REVIEW

[논문 리뷰] compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Lucie Termignon, Simonas Zilinskas|arXiv (Cornell University)|2026. 02. 06.

Mobile Crowdsensing and Crowdsourcing인용 수 0

한 줄 요약

본 논문은 compar:IA를 소개한다, 프랑스 공용 LLM 생태계로 대규모 프랑스어 프롬프트와 인간 선호를 수집하고 연구를 위한 개방 데이터셋과 다국어 확장을 위한 공개를 제공한다.

ABSTRACT

Large Language Models (LLMs) often show reduced performance, cultural alignment, and safety robustness in non-English languages, partly because English dominates both pre-training data and human preference alignment datasets. Training methods like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) require human preference data, which remains scarce and largely non-public for many languages beyond English. To address this gap, we introduce compar:IA, an open-source digital public service developed inside the French government and designed to collect large-scale human preference data from a predominantly French-speaking general audience. The platform uses a blind pairwise comparison interface to capture unconstrained, real-world prompts and user judgments across a diverse set of language models, while maintaining low participation friction and privacy-preserving automated filtering. As of 2026-02-07, compar:IA has collected over 600,000 free-form prompts and 250,000 preference votes, with approximately 89% of the data in French. We release three complementary datasets -- conversations, votes, and reactions -- under open licenses, and present initial analyses, including a French-language model leaderboard and user interaction patterns. Beyond the French context, compar:IA is evolving toward an international digital public good, offering reusable infrastructure for multilingual model training, evaluation, and the study of human-AI interaction.

연구 동기 및 목표

RLHF/DPO 스타일 훈련을 위한 프랑스어 인간 선호 데이터의 부족 문제를 해소한다.
프랑스어 프롬프트와 선호를 수집·필터링·게시할 수 있는 접근 가능한 공개 인프라를 제공한다.
연구·개발·평가를 위한 오픈 라이선스 하의 오픈 데이터셋(대화, 투표, 반응)을 제공한다.
개인정보를 보호하면서 참여 마찰을 최소화하는 플랫폼 설계를 시연한다.
데이터 플랫폼의 거버넌스 모델과 다국어 확장 가능성을 탐색한다.

제안 방법

제약 없는 프롬프트와 블라인드 사이드바이사이드 모델 비교를 위한 플랫폼 설계와 사용자 상호 작용 흐름을 설명한다.
개인정보를 포함하는 대화를 제거하기 위한 프라이버시 보존 후처리 데이터 필터링 파이프라인을 구현한다.
Hugging Face와 data.gouv.fr에 Etalab 2.0 라이선스 하에 상호보완적인 오픈 데이터셋(대화, 투표, 반응)을 게시한다.
브래들리-테리 스타일 랭킹을 사용하는 집계된 쌍별 선호도에 기반한 모델 리더보드를 제공한다.
실세계 프랑스어 LLM 사용을 보여주기 위해 사용자 상호 작용 패턴과 주제를 분석한다.
장기적 공개 사용과 확장 가능한 추론을 지원하기 위해 Gradio에서 FastAPI/SvelteKit으로의 백엔드 인프라 발전을 문서화한다.

실험 결과

연구 질문

RQ1저마찰의 공개 LLM arena를 통해 일반 대중으로부터 프랑스어 데이터가 얼마나 수집될 수 있는가?
RQ2대규모 프랑스어 프롬프트/선호 데이터셋에서 프롬프트, 언어, 주제의 분포는 어떠한가?
RQ3블라인드 쌍별 비교와 반응 신호를 활용해 실용적인 리더보드와 평가 인프라를 구축할 수 있는가?
RQ4위험을 완화하면서 프롬프트와 선호를 공개 출판하도록 하는 프라이버시 보존 및 거버넌스 기법은 무엇인가?
RQ5이 플랫폼이 프랑스를 넘어 프랑스어 외 다국어의 개방형 AI 평가를 위한 다국어 국제 공공재로서 기능할 수 있는가?

주요 결과

2026-02-07 기준, compar:IA는 600,000건이 넘는 자유형 프롬프트와 250,000건이 넘는 선호 투표를 수집했고, 데이터의 89%가 프랑스어로 되어 있다.
104개의 모델(29개 독점, 나머지는 오픈-가중치/오픈소스)이 플랫폼에서 나란히 비교 가능했다.
세 개의 오픈 데이터셋이 공개되었다: comparia-conversations, comparia-votes, comparia-reactions, Hugging Face와 data.gouv.fr에 Etalab 2.0 라이선스하에 호스팅.
2025년 11월에 첫 번째 모델 리더보드가 발표되었고 집계된 쌍별 선호를 사용하여 매주 업데이트된다.
Bunka.ai 협업은 175,000건의 대화를 매핑하여 네 가지 지배적 상호작용 유형을 밝혔다: 학습, 자문 요청, 콘텐츠 생성, 정보 검색; 상호작용은 대부분 보강적이며 완전 자율적이지 않다.
플랫폼은 프라이버시를 강조하며, 식별 가능한 PII가 탐지된 대화의 약 5%를 제거하는 보수적인 데이터 필터링 파이프라인을 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.