[论文解读] Leveraging Large Language Models for Multiple Choice Question Answering
本文表明,对大语言模型(LLMs)使用多选提示(MCP)来提示——其中答案选项绑定到符号并与问题一起呈现——可以大幅提升MCQA性能,通常超过填空提示(CP),在许多数据集上接近或超越SOTA,特别是对于具备强大多选符号绑定(MCSB)能力的模型。
While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., "A") associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective, the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.
研究动机与目标
- 动机化并形式化大语言模型中填空提示在MCQA上的局限性。
- 提出多选提示(MCP)作为一种替代方法,将答案选项绑定到符号并提示模型在它们之间进行选择。
- 引入并形式化多选符号绑定(MCSB),作为有效MCP的关键能力。
- 在20个不同的MCQA数据集上使用具备不同MCSB能力的模型对MCP进行经验评估,并与SOTA进行比较。
提出的方法
- 定义并对比填空提示(CP)与多选提示(MCP)。
- 引入多选符号绑定(MCSB),指在答案顺序不同的情况下仍能将答案选项与符号持续关联的能力。
- 在OpenBookQA上使用PPA(Proportion of Plurality Agreement)评估若干LLM(GPT-3、Codex、InstructGPT 等)的MCSB。
- 在20个MCQA数据集上进行大规模实验,比较CP(含不同归一化)与MCP。
- 由于高MCSB能力与成本因素,使用Codex(Davinci)作为主要评估模型。
- 报告在CP和MCP下的零-shot、1-shot和少量-shot性能,突出MCP带来的提升。
实验结果
研究问题
- RQ1多选提示(MCP)是否使LLMs更好地利用答案选项,相较于填空提示(CP)?
- RQ2模型的多选符号绑定(MCSB)能力如何影响在MCP下的MCQA性能,跨越不同数据集?
- RQ3在不进行任务特定微调的情况下,MCP在广泛的MCQA任务上能在多大程度上缩小与SOTA的差距?
主要发现
- MCP在20个数据集中有16个胜过CP;在零-shot、1-shot和少量-shot设置下,平均比CP提升8.3–12.2个百分点。
- 在这20个数据集中,MCP相对于CP的平均差距为9.7个百分点,某些任务的最大差距达44%。
- MCP在20个数据集中的9个上超过了旧SOTA分数,在单个任务中提升高达15%,且各数据集的MCP分数平均接近SOTA,差异在0.6%以内。
- 具备高MCSB能力的Codex和Instruct模型从MCP中获得最强的提升,常在不进行任务特定微调的情况下接近或超越SOTA。
- MCP在跨任务和示例设置中,所需前向传播(API调用)比最佳CP策略少4.3倍时,达到相当或更好的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。