Skip to main content
QUICK REVIEW

[論文レビュー] CODE: A Contradiction-Based Deliberation Extension Framework for Overthinking Attacks on Retrieval-Augmented Generation

Xiaolei Zhang, Xiaojun Jia|arXiv (Cornell University)|Jan 19, 2026
Topic Modeling被引用数 0
ひとこと要約

本文では CODE を導入し、 Retrieval-Augmented Generation (RAG) における外部知識をポイズニングして商用推論モデルの過度な推論(過剰思考)を誘発するが、回答の正確性は維持する。

ABSTRACT

Introducing reasoning models into Retrieval-Augmented Generation (RAG) systems enhances task performance through step-by-step reasoning, logical consistency, and multi-step self-verification. However, recent studies have shown that reasoning models suffer from overthinking attacks, where models are tricked to generate unnecessarily high number of reasoning tokens. In this paper, we reveal that such overthinking risk can be inherited by RAG systems equipped with reasoning models, by proposing an end-to-end attack framework named Contradiction-Based Deliberation Extension (CODE). Specifically, CODE develops a multi-agent architecture to construct poisoning samples that are injected into the knowledge base. These samples 1) are highly correlated with the use query, such that can be retrieved as inputs to the reasoning model; and 2) contain contradiction between the logical and evidence layers that cause models to overthink, and are optimized to exhibit highly diverse styles. Moreover, the inference overhead of CODE is extremely difficult to detect, as no modification is needed on the user query, and the task accuracy remain unaffected. Extensive experiments on two datasets across five commercial reasoning models demonstrate that the proposed attack causes a 5.32x-24.72x increase in reasoning token consumption, without degrading task performance. Finally, we also discuss and evaluate potential countermeasures to mitigate overthinking risks.

研究の動機と目的

  • 外部知識をポイズニングして RAG システムのエンドツーエンドのエンドユーザー攻撃を動機付け、プロンプトやモデルウェイトに触れずに実行できるようにする。
  • システムが取得可能な矛盾ベースの敵対的パッセージを構築するマルチエージェント・パイプラインを設計する。
  • 複数の商用モデルで推論コストの substantial な増加を、正確性を維持したまま実証する。
  • 過剰思考ベースの攻撃に対する堅牢性を分析し、潜在的な防御策を議論する。

提案手法

  • Contradiction Architect、Conflict Weaver、Style Adapter の三エージェント CODE フレームワークを導入し、敵対的パッセージを生成する。
  • Contradiction Architect は、論理的制約と対立する証拠内容を結ぶ層間矛盾の設計図を作成する。
  • Conflict Weaver はこの矛盾設計図を、クエリと意味的に整合しつつ検索に適した流暢な敵対的テキストへ翻訳する。
  • Style Adapter は、リトリーブを崩さず推論トークン消費を最大化するスタイルベースの進化的リライトを実行し、ソフトな正確性指向の適合度関数によってガイドする。
  • 黒箱の脅威モデルの下で、外部知識ベースへ毒される文書を挿入し、RAG 処理中に取得される。
  • 複数の商用推論モデルと標準的な数値推論 QA データセットで評価し、トークン増幅とタスク正確性を測定する。

実験結果

リサーチクエスチョン

  • RQ1構造化された矛盾フレームワークによる外部知識のポイズニングは、回答精度を落とすことなく RAG システムの推論コストを増大させるか。
  • RQ2三エージェント CODE フレームワーク(Contradiction Architect、Conflict Weaver、Style Adapter)は、推論を膨張させる取り出し可能で矛盾するパッセージを生成できるか。
  • RQ3敵対的なスタイル適応が、さまざまなモデルとデータセットにおけるトークンレベルおよびタスクレベルの増幅に与える影響は何か。

主な発見

  • 敵対的推論コストは大幅に増加し、評価モデル間でトークンレベルの増幅は 5.32× から 24.72× の範囲。
  • タスクレベルの増幅は 約 12.70× から 43.45× の範囲であり、スタイル適応を適用するとより深い推論の膨張が顕著。
  • モデル間で回答の正確性は非敵対設定と同程度を維持し、出力を劣化させずに潜在的操作を示唆。
  • 敵対的パッセージの取得ヒット率は、試験設定下で 100% を維持し、推論過程へ欺瞞が浸透することを確保。
  • アブレーションにより Contradiction Architect と Conflict Weaver が増幅の主要推進力であり、Style Adapter が追加的だが小さな増幅を提供。
  • プロンプト制約や取得フィルタリングといった防御策は推論コストの膨張を抑制するが、完全には緩和しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。