[論文レビュー] Multicultural Spyfall: Assessing LLMs through Dynamic Multilingual Social Deduction Game
The paper proposes a dynamic, multilingual Spyfall-based benchmark to evaluate LLMs, finding non-English performance gaps and alignment with Chatbot Arena rankings, while offering a scalable, leakage-resistant evaluation approach.
The rapid advancement of Large Language Models (LLMs) has necessitated more robust evaluation methods that go beyond static benchmarks, which are increasingly prone to data saturation and leakage. In this paper, we propose a dynamic benchmarking framework for evaluating multilingual and multicultural capabilities through the social deduction game Spyfall. In our setup, models must engage in strategic dialogue to either identify a secret agent or avoid detection, utilizing culturally relevant locations or local foods. Our results show that our game-based rankings align closely with the Chatbot Arena. However, we find a significant performance gap in non-English contexts: models are generally less proficient when handling locally specific entities and often struggle with rule-following or strategic integrity in non-English languages. We demonstrate that this game-based approach provides a scalable, leakage-resistant, and culturally nuanced alternative to traditional NLP benchmarks. The game history can be accessed here https://huggingface.co/datasets/haryoaw/cultural-spyfall.
研究の動機と目的
- saturationに陥りがちな静的ベンチマークを超えた堅牢な評価の動機づけ。
- 動的で多言語かつ多文化なベンチマークフレームワークの開発。
- 文化的に関連する場所やエンティティを含む戦略的対話を通じてLLMsを評価。
- 従来のNLPベンチマークに代わる、スケーラブルで leakage-resistant な評価を提供。
提案手法
- 動的な社会推理ゲーム(Spyfall)を用いて多言語・多文化のLLMsをテスト。
- モデルは秘密のエージェントを特定するか検出を避けるための戦略的対話に徹する必要がある。
- 文化的に関連する場所や現地の食べ物を組み込み、文化知識を探る。
- ゲームベースのランキングをChatbot Arenaなど既存ベンチマークと比較。
- 漏えいに強い評価を可能にするため、ゲーム履歴をアクセス可能にする。
実験結果
リサーチクエスチョン
- RQ1動的な多言語の社会推理設定におけるLLMsのパフォーマンスはどうなるか。
- RQ2ゲームベースのランキングはChatbot Arenaのような確立済みのベンチマークと整合するか。
- RQ3特に現地特有のエンティティやルール順守、非英語文脈でのLLMsの課題は何か。
- RQ4このゲームベースのアプローチはスケーラブルで leakage-resistant な評価法を提供できるか。
主な発見
- ゲームベースのランキングはChatbot Arenaの評価と密接に一致する。
- 非英語文脈で顕著なパフォーマンスのギャップが示される。
- 現地特有のエンティティや非英語言語におけるルール順守や戦略的整合性の面でモデルは難しさを示す。
- ゲームベースのアプローチは従来のNLPベンチマークに代わる、スケーラブルで leakage-resistantかつ文化的にニュアンスのある方法を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。