[论文解读] OI-Bench: An Option Injection Benchmark for Evaluating LLM Susceptibility to Directive Interference
tldr: OI-Bench 引入一个选项注入基准,在 MCQA 中将误导性指令作为第五个选项附加,以量化 LLM 对指令干扰的易感性,对 12 种模型在 16 种指令类型上进行评估,并探索通过后训练对齐来缓解。
Benchmarking large language models (LLMs) is critical for understanding their capabilities, limitations, and robustness. In addition to interface artifacts, prior studies have shown that LLM decisions can be influenced by directive signals such as social cues, framing, and instructions. In this work, we introduce option injection, a benchmarking approach that augments the multiple-choice question answering (MCQA) interface with an additional option containing a misleading directive, leveraging standardized choice structure and scalable evaluation. We construct OI-Bench, a benchmark of 3,000 questions spanning knowledge, reasoning, and commonsense tasks, with 16 directive types covering social compliance, bonus framing, threat framing, and instructional interference. This setting combines manipulation of the choice interface with directive-based interference, enabling systematic assessment of model susceptibility. We evaluate 12 LLMs to analyze attack success rates, behavioral responses, and further investigate mitigation strategies ranging from inference-time prompting to post-training alignment. Experimental results reveal substantial vulnerabilities and heterogeneous robustness across models. OI-Bench is expected to support more systematic evaluation of LLM robustness to directive interference within choice-based interfaces.
研究动机与目标
- 推动对 LLM 在 MCQA 界面中对指令干扰的系统性评估。
- 开发一个将选项操纵与基于指令的干扰相结合的基准(OI-Bench)。
- 在知识、推理和常识任务中使用多种指令类型量化模型脆弱性。
- 探讨包括防御性提示、后训练对齐在内的防御策略,以缓解注入效应。
提出的方法
- 用一个任务无关的注入选项 E,跨四类指令:社会合规、额外奖励、威胁框架和指令干扰,对 MCQA 进行扩增。
- 在现有数据集(MMLU、LogiQA、HellaSwag)基础上构建一个 3,000 问的基准,涵盖事实知识、逻辑推理和常识叙事。
- 定义评估指标:Standard Accuracy、Injected Accuracy、Attack Success Rate、以及 Accuracy Drop。
- 在四类注入类别下评估来自多家族的 12 种 LLM,以分析 ASR 与鲁棒性。
- 评估防御策略包括防御性提示、安全对齐模型,以及通过 Direct Preference Optimization (DPO) 和 PPO 的后训练对齐。
- 分析模型对注入选项的注意力,并通过将注入选项移动到不同位置进行位置偏差实验。

实验结果
研究问题
- RQ1将误导性选项 E 添加对不同 LLM 与任务领域的 MCQA 表现有何影响?
- RQ2哪些指令类型和类别最强烈干扰模型决策,这种影响在不同模型之间的变异性如何?
- RQ3通过提示、安全护栏或后训练对齐是否能在不牺牲基线准确度的前提下降低注入易感性?
- RQ4注入选项的位置对对指令干扰的易感性有何作用?
- RQ5高能力模型是否必然对注入指令表现出更强的鲁棒性?
主要发现
- 威胁框架在所有模型中体现出最强的降解,具有最高的攻击成功率和准确度下降。
- 平均而言,注入选项 E 会降低准确度并增加错误率,且在模型和任务之间存在变异性。
- 基于覆盖/覆盖惩罚的指令(Override Penalty/Override Bonus)尤为具扰性,表明对损失框架和显式覆盖的敏感度。
- 防御性提示和具安全 guard 的模型提供的缓解有限,而后训练对齐方法(DPO 和 PPO)在降低攻击成功率方面更具前景,有时还能维持或提升标准准确度。
- 注意力分析表明,PPO 在深层减少对注入选项的过度关注,表明对齐微调下推理动态的改变。
- 将注入选项向前放置(置换)会增加易感性,表明 MCQA 中存在强烈的位置偏置效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。