[論文レビュー] Leveraging Large Language Models for Multiple Choice Question Answering
本論文は、選択肢が記号に結び付けられ、質問とともに提示される多肢選択 prompts (MCP) でLLMsに prompting することが、MCQA の性能を大幅に向上させ、しばしば cloze prompting (CP) を上回り、多くのデータセットで SOTA に近づくまたは超えることを示している。特に、強い多肢選択記号結合能力(MCSB)を持つモデルで顕著である。
While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., "A") associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective, the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.
研究の動機と目的
- 大規模言語モデルにおける MCQA に対するcloze prompting の制限を動機づけ、形式化する。
- 答えの選択肢を記号に結び付け、それらの中からモデルに選択させる代替手段として複数選択 prompting (MCP) を提案する。
- 有効な MCP の鍵となる能力としての多肢選択記号結合 (MCSB) を導入・形式化する。
- 異なる MCSB 能力を持つモデルを用いて20の多様な MCQA データセットを用いた経験的評価を行い、SOTA と比較する。
提案手法
- cloze prompting (CP) と multiple-choice prompting (MCP) を定義し、対比する。
- 回答順序に関係なく、答えの選択肢を記号と一貫して結び付ける能力として multiple-choice symbol binding (MCSB) を導入する。
- OpenBookQA で PPA (Proportion of Plurality Agreement) を用いて MCSB の評価を、GPT-3、Codex、InstructGPT などの複数の LLM で行う。
- CP(さまざまな正規化を用いた)とMCPを比較した 20 データセットにわたる大規模実験を実施する。
- コデックス (Davinci) を主な評価モデルとして採用します。高い MCSB 能力とコストの観点から。
- CP および MCP のゼロ、ワン、Few-shot の性能を報告し、MCP からの利得を強調する。)
実験結果
リサーチクエスチョン
- RQ1MCP は CP と比較して LLM が回答オプションをより上手く活用できるようにするか?
- RQ2多様なデータセットにおける MCP で、モデルの MCSB 能力は MCQA の性能にどのように影響するか?
- RQ3タスク固有の調整を行わずに、幅広い MCQA タスクで MCP が SOTA との差をどの程度縮められるか?
主な発見
- MCP は 20 データセット中 16 データセットで CP を上回る;CP に対する平均の改善はゼロ-shot・ワン-shot・few-shot の設定を通じて 8.3–12.2 ポイント。
- 20データセット全体で、MCP は CP に対して平均で 9.7 ポイントの差、いくつかのタスクで最大 44% の差を生む。
- MCP は 20 データセット中 9 データセットで旧 SOTA を上回り、単一タスクで最大 15% の利得、データセット全体での SOTA に対する平均は 0.6% 内。
- 高い MCSB 能力を持つ Codex および Instruct モデルは MCP から最も大きな利得を得ており、多くの場合、タスク固有の調整なしで SOTA に近づく、あるいは上回る。
- MCP は、タスクと exemplar 設定において、最良の CP 戦略より 4.3 倍少ないフォワードパス(API 呼び出し)で同等またはそれ以上の性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。