[论文解读] SearchAttack: Red-Teaming LLMs against Knowledge-to-Action Threats under Online Web Search
SearchAttack 引入一个双阶段的红队演练框架,将有害语义外包给开放网络搜索,并使用检索筛选来测试和压力测试搜索增强型 LLM 的安全性。它还通过带有事实核验的 Attack Value 和 ShadowRisk 数据集对风险进行基准测试。
Recently, people have suffered from LLM hallucination and have become increasingly aware of the reliability gap of LLMs in open and knowledge-intensive tasks. As a result, they have increasingly turned to search-augmented LLMs to mitigate this issue. However, LLM-driven search also becomes an attractive target for misuse. Once the returned content directly contains targeted, ready-to-use harmful instructions or takeaways for users, it becomes difficult to withdraw or undo such exposure. To investigate LLMs' unsafe search behavior issues, we first propose extbf{ extit{SearchAttack}} for red-teaming, which (1) rephrases harmful semantics via dense and benign knowledge to evade direct in-context decoding, thus eliciting unsafe information retrieval, (2) stress-tests LLMs' reward-chasing bias by steering them to synthesize unsafe retrieved content. We also curate an emergent, domain-specific illicit activity benchmark for search-based threat assessment, and introduce a fact-checking framework to ground and quantify harm in both offline and online attack settings. Extensive experiments are conducted to red-team the search-augmented LLMs for responsible vulnerability assessment. Empirically, SearchAttack demonstrates strong effectiveness in attacking these systems. We also find that LLMs without web search can still be steered into harmful content output due to their information-seeking stereotypical behaviors.
研究动机与目标
- 突出搜索增强型 LLM 的可靠性差距和安全风险,当有害任务通过网络搜索触发时。
- 开发一个双阶段的红队演练框架,将有害语义外包给开放网络并通过多跳检索测试模型推理。
- 引入带事实核验的框架 (Attack Value) 和现实世界威胁基准 (ShadowRisk) 来评估实际风险。
- 提供防御洞见与关于检索感知的安全对齐及对具备代理能力的 AI 的防护措施讨论。
提出的方法
- 双阶段攻击载荷合成:外包注入 (Q_I) 和检索筛选 (Q_R) 来引导 LLM 产生有害输出。
- 外包注入使用语法骨架和多跳搜索触发增强,将不安全查询改写为结构化、外部化的伤害场景。
- 通过一个代理过程进行骨架构建,包括 InitSkel、AdvAudit 和 BuildSkel,以产生多跳触发器 (T_i^M)。
- 搜索触发增强通过迭代的网络搜索与推理(Search、BuildGraph、BuildTrigger)来搭建知识图谱和多跳触发器。
- 检索筛选将有害的网络资源框定为一个多目标、以任务评量为导向的任务(Q_R),通过逆向工程任务评量来利用 RLVR 训练模型的奖励驱动行为。
- 以 Attack Value (AtV) 进行 grounding 评估,验证可核验的主张是否有外部网络证据支撑,与安全覆盖判定解耦。
实验结果
研究问题
- RQ1攻击者是否可以将恶意意图外包到开放网络情境,以绕过搜索增强型 LLM 的安全性?
- RQ2双阶段红队框架在通过网络搜索和检索筛选诱导出可操作的有害输出方面有多有效?
- RQ3Attack Value 与 ShadowRisk 基准框架是否揭示检索启用模型的实际安全差距?
- RQ4哪些防御措施(提示和注入策略)能在保留有用性的前提下降低搜索增强型越狱攻击的风险?
主要发现
- SearchAttack 在多种设置下实现了优越的红队表现(AdvBench 的 ASR 95%、ShadowRisk 的 ASR 98%)。
- 消融实验显示多跳搜索触发增强显著提升越狱效果;若未对触发器进行增强,性能会下降。
- 对 Attack Value 的事实核验揭示传统基于内容的安全指标可能忽略事实错误,促使独立的 AtV 评估。
- 跨语言和跨领域结果表明中文结果更易出现教程化的有害内容,而非英文检索中的弱化筛选源可能提高风险。
- 防御实验显示安全提示和安全注入能降低部分攻击,但未能完全缩小与 SearchAttack 的差距,突显需要检索感知的安全对齐。
- ShadowRisk 提供 2,802 道知识密集型问答对(210 道公开发布用于评估),用于基准社会-时间维度的有害评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。