[论文解读] Large Language Models Are Not Robust Multiple Choice Selectors
本研究表明,在多项选择题中,LLMs 出现选择偏差,原因是对选项ID的令牌偏置,并提出 PriDe,一种零标签、推理时去偏方法,估计选项ID的先验以去偏预测。
Multiple choice questions (MCQs) serve as a common yet important task format in the evaluation of large language models (LLMs). This work shows that modern LLMs are vulnerable to option position changes in MCQs due to their inherent "selection bias", namely, they prefer to select specific option IDs as answers (like "Option A"). Through extensive empirical analyses with 20 LLMs on three benchmarks, we pinpoint that this behavioral bias primarily stems from LLMs' token bias, where the model a priori assigns more probabilistic mass to specific option ID tokens (e.g., A/B/C/D) when predicting answers from the option IDs. To mitigate selection bias, we propose a label-free, inference-time debiasing method, called PriDe, which separates the model's prior bias for option IDs from the overall prediction distribution. PriDe first estimates the prior by permutating option contents on a small number of test samples, and then applies the estimated prior to debias the remaining samples. We demonstrate that it achieves interpretable and transferable debiasing with high computational efficiency. We hope this work can draw broader research attention to the bias and robustness of modern LLMs.
研究动机与目标
- 识别 LLMs 如何对 MCQ 的选项ID 出现选择偏差,以及这如何影响在不同基准上的鲁棒性。
- 量化令牌偏置与位置偏置在 MCQ 答案选择中的作用。
- 开发一种无标签、推理时去偏的方法(PriDe),以分离并减轻来自预测的先验偏置。
- 展示 PriDe 的有效性、效率、可解释性以及跨领域泛化能力。
- 提供关于学习到的先验在跨领域中的可推广性的见解。
提出的方法
- 在多个基准上,使用 recall balance (RStd) 在不同选项ID 间定义与测量选择偏差。
- 通过对 ID 进行打乱、并从提示中移除 ID,进行消融实验以将令牌偏置与位置偏置分离。
- 开发 PriDe:通过将观测到的预测分解为对 ID 的先验与去偏内容分布,来预测去偏分布。
- 通过置换基去偏在一个小的估计集上估计样本特异的先验,并为其余样本推导全局先验。
- 用跨置换的平均对数预测的 Softmax 来构建先验(方程式 7)。
- 展示 PriDe 相对于基于置换的基线(Cyclic 和 Full Perm),并分析跨领域泛化。
实验结果
研究问题
- RQ1在解答 MCQ 时,是什么原因导致 LLMs 出现选择偏差,令牌偏置和位置偏置各自如何贡献?
- RQ2一种无标签、推理时方法是否能减轻这种偏差且不损害 MCQ 的性能?
- RQ3相较于基于置换的基线,PriDe 在提升鲁棒性和效率方面有多有效?
- RQ4在一个领域估计的先验是否可以泛化到其他领域?
主要发现
- 选择偏差在 20 种 LLM 中普遍存在,并随模型家族和规模而异。
- 令牌偏置被确认为选择偏差的主要内在原因,位置偏置的作用较小。
- 简单的提示策略并不能有效减轻选择偏差。
- PriDe,一种无标签的去偏方法,在计算成本较低时,明显优于 Cyclic 和 Full Perm 基线。
- PriDe 的先验估计显示出可解释性与跨域泛化潜力。
- 先验估计在样本量变化(2%–20%)时保持稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。