[論文レビュー] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
MMLU-Pro は MMLU を拡張し、14ドメイン、12,032問、10択、そして2つの専門家レビューラウンドを追加。これにより難しく、より堅牢でプロンプト安定性の高いベンチマークとなり、モデルの能力をより識別可能にし、Chain-of-Thought推論の恩恵を受ける。
In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
研究の動機と目的
- 元の MMLU ベンチマークの飽和とノイズに対処し、より挑戦的で推論重視のデータセットを作成する。
- 回答選択肢を4から10に増やし、推測を減らし堅牢性を高める。
- 些細な/ノイズの多い質問を排除し、データセット品質を向上させるために専門家レビューを導入する。
- 新しいベンチマークで広範囲のLLM(オープンソース・クローズドソースを問わず)を評価し、プロンプト感度と推論要件を分析する。
- Chain-of-Thought(CoT)推論が、直接回答と比較してMMLU-Proの性能にどのように影響するかを調査する。
提案手法
- MMLU-Pro を、57 個の MMLU カテゴリを 14 ドメインに再編成し、8 つのベースラインモデルで簡単な問題をフィルタリングして作成する。
- 複数ソースの stem 問題(STEM Website、TheoremQA、SciBench)を、GPT-4-Turbo によって追加で 6 個のディストラクターを生成して 10 問択一 MCQ に拡張する。
- 二段階の専門家レビューを実施(フェーズ 1: 正確性と適切性; フェーズ 2: ディストラクターの妥当性を Gemini-1.5-Pro で検証)し、悪問と偽陰性を除去する。
- 5-shot Chain-of-Thought prompting を用いて、5つの分野代表デモを用い、MMLU-Pro におけるモデルの推論を評価する。
- モデル出力から回答を正規表現ベースのパースで抽出する。
- 3-6 bullet points: proposed method, key techniques/equations

実験結果
リサーチクエスチョン
- RQ1MMLU-Pro は MMLU と比較して、トップクラスの LLM の難易度と識別力を高めるか。
- RQ2CoT 推論を用いたモデルの性能は MMLU-Pro と MMLU で、直接回答と比べてどのように異なるか。
- RQ3プロンプト感度(スタイル間の変化)に対する MMLU-Pro のロバスト性はどれくらいか。
- RQ4トップモデルの主なエラー源は、推論、ドメイン知識、計算のどれか。
主な発見
| Model | 総合 | 数学 | 物理 | 工学 | 歴史 | 法学 | 心理学 |
|---|---|---|---|---|---|---|---|
| GPT-4o | 72.6 | 76.1 | 74.7 | 55.0 | 70.1 | 51.0 | 79.2 |
| GPT-4-Turbo | 63.7 | 62.8 | 61.0 | 35.9 | 67.7 | 51.2 | 78.3 |
| Claude-3-Opus | 68.5 | 69.6 | 69.7 | 48.4 | 61.4 | 53.5 | 76.3 |
| Gemini-1.5-Pro | 69.0 | 72.8 | 70.4 | 48.7 | 65.6 | 50.8 | 77.2 |
| Llama-3-70B-Instruct | 56.2 | 54.0 | 49.6 | 43.6 | 56.9 | 39.9 | 70.2 |
| Phi-3-medium-4k-instruct | 55.7 | 52.2 | 49.4 | 37.9 | 57.2 | 38.3 | 73.4 |
| DeepSeek-V2-Chat | 54.8 | 53.7 | 54.0 | 31.9 | 45.3 | 40.6 | 66.2 |
| Llama-3-70B | 52.8 | 49.7 | 49.8 | 35.0 | 57.7 | 35.0 | 71.4 |
| Qwen1.5-72B-Chat | 52.6 | 52.3 | 44.2 | 36.6 | 55.9 | 38.5 | 67.7 |
| Yi-1.5-34B-Chat | 52.3 | 56.2 | 49.4 | 34.4 | 52.8 | 34.8 | 64.3 |
- GPT-4o は MMLU-Pro で総合 72.6% を達成しており、改善の余地が大きいことを示している。
- GPT-4o はGPT-4-TurboおよびClaude-3-Opus を上回り、弱いモデルとのギャップが大きくなる傾向がある(例: GPT-4o と GPT-4-Turbo の差は MMLU-Pro で約9%、以前は約1–2%)。
- MMLU-Pro は MMLU よりモデル間の差をよりよく識別する(例: GPT-4o 対 GPT-4-Turbo の差が MMLU では約1–2%だが、MMLU-Pro では約9%に拡大)。
- CoT 推論は MMLU-Pro でより大きな効果を示す(GPT-4o は CoT で約19%上昇; MMLU では約1.5%上昇)。多くのモデルで同様の傾向を示し、MMLU-Pro にはより深い推論が必要であることを示唆。
- プロンプト感度は MMLU-Pro で低減し、24 プロンプトで約 2% の変動(MMLU では 4–5%)となる。
- GPT-4o の誤り分析では、推論の欠陥(39%)、ドメイン知識の欠如(35%)、計算ミス(12%)が主要な失敗モード。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。