[論文レビュー] INFA-Guard: Mitigating Malicious Propagation via Infection-Aware Safeguarding in LLM-Based Multi-Agent Systems
INFA-Guard は感染認識型検知とトポロジーに基づくリメディエーションを導入し、LLMベースの MAS における攻撃と感染エージェントを分離して特定し、攻撃拡散を大幅に抑制します。攻撃者を置換し、感染エージェントをリハビリテートしてトポロジーを維持します。
The rapid advancement of Large Language Model (LLM)-based Multi-Agent Systems (MAS) has introduced significant security vulnerabilities, where malicious influence can propagate virally through inter-agent communication. Conventional safeguards often rely on a binary paradigm that strictly distinguishes between benign and attack agents, failing to account for infected agents i.e., benign entities converted by attack agents. In this paper, we propose Infection-Aware Guard, INFA-Guard, a novel defense framework that explicitly identifies and addresses infected agents as a distinct threat category. By leveraging infection-aware detection and topological constraints, INFA-Guard accurately localizes attack sources and infected ranges. During remediation, INFA-Guard replaces attackers and rehabilitates infected ones, avoiding malicious propagation while preserving topological integrity. Extensive experiments demonstrate that INFA-Guard achieves state-of-the-art performance, reducing the Attack Success Rate (ASR) by an average of 33%, while exhibiting cross-model robustness, superior topological generalization, and high cost-effectiveness.
研究の動機と目的
- MAS セキュリティにおいて感染エージェントを別の脅威カテゴリとして動機付け・定義する。
- 動的感染プロセスをモデル化した感染認識検知機構を開発する。
- トポロジー制約を活用して攻撃源と感染範囲の局在化を改善する。
- 攻撃者を置換し感染エージェントをリハビリテートしつつネットワークトポロジーを維持するリメディエーション戦略を提案する。
- 複数の攻撃シナリオとLLMバックボーン(例:Qwen3-235B-A22B、GPT-4o-mini)における最先端防御性能を示す。
提案手法
- MAS を時系列の発話埋め込みを伴うダイナミック有向グラフとしてモデル化する。
- 感染認識検知を導入し、ターン適応型 GNN 分岐で健全・感染・攻撃エージェントを分類する(デュアルヘッド出力)。
- 現実的な空間的制約を強制し偽陽性を減らすためのトポロジーに基づく損失(L_topo)を組み込む。
- 適応後のトポロジー調整とリプライレベルのリメディエーションを適用して攻撃者を置換し感染エージェントをリハビリテートする(G^(k+1), RF, RP)。
- 複数の攻撃タイプ(PI, TA, MA)とLLMバックボーン(例:GPT-4o-mini、Qwen3-235B-A22B)を横断して評価する。
- 時間特徴量、GNN 分岐、感染認識検知、トポロジー損失、適応後、およびリメディエーションの各構成要素の影響を示すアブレーション研究を提供する。

実験結果
リサーチクエスチョン
- RQ1感染エージェントを初期の攻撃者とは別のクラスとして MAS で効果的に検出できるか。
- RQ2感染認識検知は攻撃源と感染範囲の局在化を、二値防御と比較してどのように改善するか。
- RQ3トポロジー制約が検知精度とリメディエーション効果に与える影響は何か。
- RQ4攻撃の置換と感染のリハビリテーションによるリメディエーションは、異なる攻撃シナリオにおける全体的な MAS の堅牢性と伝播リスクにどう影響するか。
主な発見
- INFA-Guard は PI、TA、MA のタスク全般でベースラインより攻撃成功率(ASR)が低く、防御成功率(MDSR)が高い。
- PI タスクでは INFA-Guard は CSQA で ASR@3 が 23.3%、GSM8K で 6.7% まで低下し、Inspector を上回る。
- TA タスクでは INFA-Guard により 3 回目のターンで MDSR が 91.3% から 98.3% に回復し、後半の反復で最適な防御を達成。
- MA タスクでは INFA-Guard は ASR@3 が 6.1% を達成し、G-safeguard および AgentSafe をそれぞれ約 11%、約 18% 上回る。
- INFA-Guard は GPT-4o-mini および Qwen3-235B-A22B などの複数の LLM バックボーンと、チェーン/ツリー/スター型のトポロジー全体で堅牢性を維持する。
- 本手法はトークンコスト効率にも有利で、強力なベースラインと比べ Backbone LLM のプロンプトトークンを 35%、完了トークンを 13% 削減し、ASR@3 を相対的に 66% 減らす。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。