[論文レビュー] Models Know Models Best: Evaluation via Model-Preferred Formats
要約: 本論文は LLM 評価結果が形式に依存することを示し、形式を動的にモデル駆動で揃える方法を提案。問題ごとに最適な形式をモデルの好み信号で選択することでゼロショット精度を改善する。
Performance of Large Language Models (LLMs) on multiple-choice tasks differs markedly between symbol-based and cloze-style evaluation formats. The observed discrepancies are systematically attributable to task characteristics: natural language continuation benefits from likelihood scoring, whereas explicit comparison is better suited to symbol-based selection. These trends are consistent across various decoder-based LLMs, indicating model-agnostic effects. To address these inconsistencies, a dynamic format-alignment strategy is introduced that employs a lightweight classifier trained on latent model-preference signals. In contrast to human-designed heuristics, which often degrade performance, this approach uses model-generated signals to determine the optimal format for each problem instance. The proposed method achieves substantial and consistent improvements in zero-shot accuracy across reasoning and knowledge benchmarks, better revealing the models' latent capabilities.
研究の動機と目的
- 評価形式が多択タスクにおける LLM の性能に与える影響を理解する。
- 確率的継続と明示的比較を好むタスク特性を特定する。
- モデルの好み信号に導かれる形式合わせ手法を開発し、評価の精度を向上させる。
- このアプローチのデコーダーベース LLM へのモデル非依存性を実証する。
提案手法
- Symbol-based(記号ベース)と Cloze 形式の評価フォーマットを複数の LLM およびベンチマークで比較する。
- 潜在的なモデル好み信号で訓練された軽量分類器を導入し、問題ごとに最適な形式を選択する。
- 動的な形式合わせ戦略を用いて各インスタンスの最適評価形式を決定する。
- モデル好み駆動の形式選択を用いたゼロショット精度の改善を実証する。
- アプローチがモデルに依存せず、人間設計のヒューリスティックを超える改善を示す。
実験結果
リサーチクエスチョン
- RQ1評価形式は知識と推論タスクにおける LLM の性能にどのように影響するか。
- RQ2軽量分類器はモデル好み信号を利用して、与えられた問題に最適な評価形式を選択できるか。
- RQ3動的な形式合わせ評価戦略はデコーダーベース LLM でゼロショット精度を向上させるか。
- RQ4モデル好み駆動の形式は人間設計のヒューリスティックより評価に有効か。
- RQ5アプローチは異なるベンチマークとモデルファミリーで頑健か。
主な発見
- Symbol-based と Cloze 形式は、タスク特性の違いにより異なる性能を示す。
- 確率スコアは自然言語継続に適し、明示的比較は他の形式に適している。
- モデルで訓練された分類器は潜在的な形式好みを検知し、評価を導く。
- 動的な形式合わせ手法はベンチマーク全体でゼロショット精度の大幅な向上をもたらす。
- 結果はモデル非依存的な利点を示し、潜在能力をより正確に明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。