[論文レビュー] SearchAttack: Red-Teaming LLMs against Knowledge-to-Action Threats under Online Web Search
SearchAttackは、有害な意味論をオープンウェブ検索へアウトソースし、検索補助LLMの安全性をテスト・ストレステストする二段階のレッドチーミング枠組みを導入します。さらに、事実確認済みのAttack ValueとShadowRiskデータセットでリスクをベンチマークします。
Recently, people have suffered from LLM hallucination and have become increasingly aware of the reliability gap of LLMs in open and knowledge-intensive tasks. As a result, they have increasingly turned to search-augmented LLMs to mitigate this issue. However, LLM-driven search also becomes an attractive target for misuse. Once the returned content directly contains targeted, ready-to-use harmful instructions or takeaways for users, it becomes difficult to withdraw or undo such exposure. To investigate LLMs' unsafe search behavior issues, we first propose extbf{ extit{SearchAttack}} for red-teaming, which (1) rephrases harmful semantics via dense and benign knowledge to evade direct in-context decoding, thus eliciting unsafe information retrieval, (2) stress-tests LLMs' reward-chasing bias by steering them to synthesize unsafe retrieved content. We also curate an emergent, domain-specific illicit activity benchmark for search-based threat assessment, and introduce a fact-checking framework to ground and quantify harm in both offline and online attack settings. Extensive experiments are conducted to red-team the search-augmented LLMs for responsible vulnerability assessment. Empirically, SearchAttack demonstrates strong effectiveness in attacking these systems. We also find that LLMs without web search can still be steered into harmful content output due to their information-seeking stereotypical behaviors.
研究の動機と目的
- 検索結果ウェブ検索を介して有害タスクがトリガーされた場合の、検索補助LLMの信頼性ギャップと安全性リスクを強調する。
- 有害な意味論をオープンウェブへアウトソースし、多段の検索取得でモデル推論を検証する二段階のレッドチーミング枠組みを開発する。
- Attack Valueの事実確認フレームワークと現実世界の脅威ベンチマーク ShadowRisk を導入して実務リスクを評価する。
- エージェント型AIのための取得に対する安全性整合性とガードレールに関する防御の洞察と議論を提供する。
提案手法
- 二段階の攻撃ペイロード合成:Injectionのアウトソーシング(Q_I)と取得キュレーション(Q_R)を用いてLLMを有害出力へ誘導する。
- Outsourcing Injectionは、構文スケルトンとマルチホップ検索トリガー拡張を用いて安全でないクエリを外部化された有害コンテキストへ書き換える。
- InitSkel、AdvAudit、BuildSkelを含むエージェント的プロセスによるスケルトン構築が、マルチホップのトリガー(T_i^M)を生成する。
- Search-trigger augmentationは、知識グラフとマルチホップのトリガーを、反復的なウェブ検索と推論を通じて構築する(Search、BuildGraph、BuildTrigger)。
- Retrieval Curationは、有害なウェブリソースを報酬追跡行動を悪用するタスクルーブリックを逆算して、多目的なルーブリックガイド付きタスク(Q_R)として位置づける。
- Attack Value(AtV)を用いたグラウンディング評価は、検証可能な主張を外部ウェブ証拠と照合し、安全性カバレッジ判断と切り離して検証する。
実験結果
リサーチクエスチョン
- RQ1攻撃者はオープンウェブ文脈へ有害意図をアウトソースして、検索補助LLMの安全性を回避できるか。
- RQ2ウェブ検索と取得キュレーションを通じて実行可能な有害出力を誘発する上で、二段階のレッドチーミング枠組みはどれほど効果的か。
- RQ3Attack ValueとShadowRiskのベンチマークフレームワークは、取得を有効化したモデルに現実的な安全ギャップを示すか。
- RQ4検索補助 jailbreakを緩和しつつ有用性を維持する防御策(プロンプトとインジェクション戦略)は何か。
主な発見
- SearchAttackは、AdvBenchでの95%のASR、ShadowRiskでの98%のASRといった多様な設定で優れたレッドチーミング性能を実現する。
- アブレーション実験は、マルチホップ検索トリガー拡張がジャailbreakの効果を大幅に高める一方、トリガーが拡張されない場合には性能低下を招くことを示す。
- Attack Valueの事実確認は、従来のコンテンツベースの安全性指標が事実誤謬を見落とす可能性があることを示し、AtV評価の切り離しを促す。
- クロスリンガル・クロスドメインの結果は、中国語結果がチュートリアル風の有害コンテンツを表出しやすく、非英語取得で低品質なソースがリスクを高め得ることを示す。
- 防御実験は、安全性プロンプトと安全性インジェクションがいくつかの攻撃を減らす一方、SearchAttackに対してギャップを完全には埋められず、取得を考慮した安全整合の必要性を強調する。
- ShadowRiskは、社会時相の害を評価するための2,802件の知識集約型Q&Aペア(210件が評価用に公開)を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。