Skip to main content
QUICK REVIEW

[論文レビュー] Is Reasoning Capability Enough for Safety in Long-Context Language Models?

Yu Fu, Haz Sameen Shahgir|arXiv (Cornell University)|Feb 9, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

長文.contextのLLMにおけるより強い一般的推論は安全性を保証しない。構成的推論攻撃は、文脈ベースの統合の後にのみ有害な意図を暴露し、安全性の整合性は長い文脈で低下するが、推論時の推論を増やすことで攻撃を緩和できる可能性がある。

ABSTRACT

Large language models (LLMs) increasingly combine long-context processing with advanced reasoning, enabling them to retrieve and synthesize information distributed across tens of thousands of tokens. A hypothesis is that stronger reasoning capability should improve safety by helping models recognize harmful intent even when it is not stated explicitly. We test this hypothesis in long-context settings where harmful intent is implicit and must be inferred through reasoning, and find that it does not hold. We introduce compositional reasoning attacks, a new threat model in which a harmful query is decomposed into incomplete fragments that scattered throughout a long context. The model is then prompted with a neutral reasoning query that induces retrieval and synthesis, causing the harmful intent to emerge only after composition. Evaluating 14 frontier LLMs on contexts up to 64k tokens, we uncover three findings: (1) models with stronger general reasoning capability are not more robust to compositional reasoning attacks, often assembling the intent yet failing to refuse; (2) safety alignment consistently degrades as context length increases; and (3) inference-time reasoning effort is a key mitigating factor: increasing inference-time compute reduces attack success by over 50 percentage points on GPT-oss-120b model. Together, these results suggest that safety does not automatically scale with reasoning capability, especially under long-context inference.

研究の動機と目的

  • 暗示的な有害意図を伴う長文-contextにおける安全性の課題を動機づける。
  • 長い文脈全体にわたって有害なクエリを分解する構成的推論攻撃を導入する。
  • 64kトークンまでの文脈で14の最前線LLMを評価し、安全性のロバスト性を評価する。
  • 推論時の推論計算が攻撃の成功と安全性整合性に与える影響を分析する。

提案手法

  • 新たな脅威モデルを定義する:長文文脈の断片に有害意図が分散する構成的推論攻撃。
  • 64kトークンまでの文脈で14の最前線LLMを評価し、安全性のロバスト性を測定する。
  • 再構成時に有害意図へ繋がる取得と統合を引き起こす中立的な推論クエリでモデルを促す。
  • 推論時の推論計算量と攻撃成功の関係を分析(攻撃緩和)。
  • 文脈長が長くなるほど安全性整合性を比較し、推論能力と安全性のスケーラビリティを評価する。

実験結果

リサーチクエスチョン

  • RQ1長文設定でより強い一般推論は安全性の向上に関連するか。
  • RQ2構成的推論攻撃は長文文脈に隠れた有害意図を暴露する効果があるか。
  • RQ3文脈長を増やすとLLMの安全性整合性はどう変化するか。
  • RQ4推論時の推論計算を増やすと攻撃成功は減少するか。

主な発見

  • より強い一般推論を持つモデルは、構成的推論攻撃に対して必ずしも頑健ではなく、意図を組み立てつつ拒否を回避することがある。
  • 文脈長が長くなるほど安全性整合性は一貫して低下する。
  • 推論時の推論努力は攻撃を緩和し、GPT-oss-120bモデルで攻撃成功は50ポイント超分減少した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。