[論文レビュー] Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions
この論文はLLMがMCQの選択肢順序に対して substantial な感度を示すことを明らかにし、根本的な原因を分析し、頑健性を最大約8ポイント改善できるパターンと較正手法を提示します。
Large Language Models (LLMs) have demonstrated remarkable capabilities in various NLP tasks. However, previous works have shown these models are sensitive towards prompt wording, and few-shot demonstrations and their order, posing challenges to fair assessment of these models. As these models become more powerful, it becomes imperative to understand and address these limitations. In this paper, we focus on LLMs robustness on the task of multiple-choice questions -- commonly adopted task to study reasoning and fact-retrieving capability of LLMs. Investigating the sensitivity of LLMs towards the order of options in multiple-choice questions, we demonstrate a considerable performance gap of approximately 13% to 75% in LLMs on different benchmarks, when answer options are reordered, even when using demonstrations in a few-shot setting. Through a detailed analysis, we conjecture that this sensitivity arises when LLMs are uncertain about the prediction between the top-2/3 choices, and specific options placements may favor certain prediction between those top choices depending on the question caused by positional bias. We also identify patterns in top-2 choices that amplify or mitigate the model's bias toward option placement. We found that for amplifying bias, the optimal strategy involves positioning the top two choices as the first and last options. Conversely, to mitigate bias, we recommend placing these choices among the adjacent options. To validate our conjecture, we conduct various experiments and adopt two approaches to calibrate LLMs' predictions, leading to up to 8 percentage points improvement across different models and benchmarks.
研究の動機と目的
- LLMのMCQ性能がオプション順によって diverse benchmarks の間でどれくらい変動するかを評価する。
- オプション順に対する感度を導く要因、特に不確実性と位置バイアスを調査する。
- MCQ解答における位置バイアスを拡大または抑制するパターンを特定する。
- 頑健性と公平な評価を改善するための較正戦略を提案する。
提案手法
- varying option counts を持つ five MCQ benchmarks で GPT-4 と InstructGPT を評価する。
- 感度は感度ギャップ(oracle オプション順での最大精度 minus 最小精度)により定量化する。
- トップ2/トップ3 のオプションパターンを分析して位置バイアスを理解する。
- 偏りを最大化または減少させるパターンを特定し実験的に検証する。
- 頑健性を向上させる二つの較正アプローチ(majority voting および MEC)をテストする。
実験結果
リサーチクエスチョン
- RQ1LLM は MCQ のオプション順序に対してどの程度感度を示すのか。
- RQ2オプション順に対する感度の要因は何か(不確実性 vs. 位置バイアス)か。
- RQ3この感度を緩和して頑健性を改善するにはどうすればよいか。
主な発見
| Task | GPT-4 Vanilla | GPT-4 Min | GPT-4 Max | InstructGPT Vanilla | InstructGPT Min | InstructGPT Max |
|---|---|---|---|---|---|---|
| CSQA | 84.3 | -12.6 | +10.3 | 72.3 | -24.0 | +19.1 |
| Logical Deduction | 92.3 | -8.1 | +5.0 | 64.0 | -39.4 | +34.7 |
| Abstract Algebra | 57.0 | -30.0 | +23.0 | 33.0 | -31.0 | +39.0 |
| High School Chemistry | 71.9 | -23.6 | +18.2 | 44.8 | -28.5 | +38.0 |
| Professional Law | 66.1 | -12.7 | +12.1 | 48.6 | -24.9 | +25.7 |
- Zero-shot 感度ギャップはベンチマーク全体で最大 75% に達することがある。GPT-4 は一般に InstructGPT より感度が低い。
- Few-shot デモは頑健性の向上を限定的に提供し、感度を完全には排除しない。
- 感度はトップ候補オプションの不確実性と、オプション順に基づく位置バイアスと相関する。
- トップ2の選択肢のパターンはバイアスを増幅または緩和し得る;トップ2を先頭と末尾に配置するとバイアスが増幅され、隣接配置は緩和する傾向がある。
- 10 回のランダムリオーダーを横断した多数決による較正は最大約8ポイントの改善を生み出し得る;MEC 較正は一部のモデル/ベンチマークで性能を低下させる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。