Skip to main content
QUICK REVIEW

[論文レビュー] OI-Bench: An Option Injection Benchmark for Evaluating LLM Susceptibility to Directive Interference

Yow-Fu Liou, Yu-Chien Tang|arXiv (Cornell University)|Jan 19, 2026
Topic Modeling被引用数 0
ひとこと要約

OI-Bench は MCQA における指示干渉感受性を定量化する誤解を招く指示を第五の選択肢として追加するオプション注入ベンチマークを導入し、16種類の指示タイプにわたり12モデルを評価し、訓練後の整合化を通じた緩和を探る。

ABSTRACT

Benchmarking large language models (LLMs) is critical for understanding their capabilities, limitations, and robustness. In addition to interface artifacts, prior studies have shown that LLM decisions can be influenced by directive signals such as social cues, framing, and instructions. In this work, we introduce option injection, a benchmarking approach that augments the multiple-choice question answering (MCQA) interface with an additional option containing a misleading directive, leveraging standardized choice structure and scalable evaluation. We construct OI-Bench, a benchmark of 3,000 questions spanning knowledge, reasoning, and commonsense tasks, with 16 directive types covering social compliance, bonus framing, threat framing, and instructional interference. This setting combines manipulation of the choice interface with directive-based interference, enabling systematic assessment of model susceptibility. We evaluate 12 LLMs to analyze attack success rates, behavioral responses, and further investigate mitigation strategies ranging from inference-time prompting to post-training alignment. Experimental results reveal substantial vulnerabilities and heterogeneous robustness across models. OI-Bench is expected to support more systematic evaluation of LLM robustness to directive interference within choice-based interfaces.

研究の動機と目的

  • MCQA インターフェース内での指示干渉に対する LLM の感受性を体系的に評価する動機づけ。
  • オプション操作と指示ベースの干渉を組み合わせたベンチマーク(OI-Bench)を開発。
  • 複数の指示タイプを用いて知識・推論・常識タスクにおけるモデルの脆弱性を定量化。
  • 防御戦略として、防御的プロンプト、訓練後の整合化を含む対策を検討し、挿入効果を緩和。

提案手法

  • タスク非関連の注入オプション E を四つのカテゴリ(社会的適合、ボーナスの枠付け、脅威の枠付け、指示的干渉)に跨って追加した MCQA の拡張。
  • 既存データセット(MMLU、LogiQA、HellaSwag)から、事実知識・論理推論・常識的物語を含む3,000問のベンチマークを構築。
  • 評価指標を定義:Standard Accuracy、Injected Accuracy、Attack Success Rate、Accuracy Drop。
  • 四つの注入カテゴリの下で12の LLM を評価し、ASRと頑健性を分析。
  • 防御戦略として、防御的プロンプト、セーフティ適合モデル、訓練後の整合化(Direct Preference Optimization(DPO)および PPO)を評価。
  • 注入オプションへのモデルの注意を分析し、注入オプションを異なる位置へ移動させることで位置バイアス実験を実施。
Figure 1: Option injection in MCQA. A question-irrelevant option $E$ with a misleading directive can flip the model’s decision.
Figure 1: Option injection in MCQA. A question-irrelevant option $E$ with a misleading directive can flip the model’s decision.

実験結果

リサーチクエスチョン

  • RQ1誤解を招くオプション E を追加することは、異なる LLM とタスク領域全体で MCQA の性能にどのような影響を与えるか?
  • RQ2どの指示タイプ・カテゴリが最もモデルの意思決定を攪乱し、この影響はモデル間でどれくらい変動するか?
  • RQ3プロンプティング、セーフティガード、訓練後整合化による緩和は、ベースラインの精度を犠牲にせずに注入感受性を低減できるか?
  • RQ4注入オプションの配置は指示干渉の感受性にどのような役割を果たすか?
  • RQ5高機能モデルは必ずしも注入指示に対してより頑健であるとは限らないのか?

主な発見

  • 脅威の枠付けが最も大きな劣化をもたらし、モデル全体で最高の攻撃成功率と精度低下を示した。
  • 平均して、注入オプション E は精度を低下させ、エラー率を増加させる傾向があり、モデルやタスクごとにばらつきがある。
  • Override Penalty/Override Bonus のような Override ベースの指示は特に破壊的であり、喪失フレーミングと明示的なオーバーライドに対する感度を示す。
  • 防御的プロンプトとセーフティ適合モデルは緩和効果が限定的である一方、訓練後の整合化手法(DPOおよび PPO)は攻撃成功率をより有望に低減し、場合によっては標準精度を維持または向上させる。
  • 注意分析は PPO が深層層で注入オプションへの過剰な注意を低減し、整合化の微調整下で推論動態が変化することを示唆している。
  • 注入オプションを前方へ配置する(置換)と脆弱性が増し、MCQA における位置バイアス効果が強いことを示す。
Figure 2: Standard accuracy vs E-option attack success rate on OI-Bench. We report each model’s Standard Accuracy (y-axis), and Attack Success Rate (ASR) (x-axis), averaged across all 16 injected prompts (4 prompt families) and further averaged over MMLU, LogiQA, and HellaSwag. Models in the top-lef
Figure 2: Standard accuracy vs E-option attack success rate on OI-Bench. We report each model’s Standard Accuracy (y-axis), and Attack Success Rate (ASR) (x-axis), averaged across all 16 injected prompts (4 prompt families) and further averaged over MMLU, LogiQA, and HellaSwag. Models in the top-lef

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。