[论文解读] SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks
SHIELD 引入一种自我修复的多代理防御,采用三阶段检测器加上知识更新与提示优化,以防御对LLMs的海绵攻击及未见变体。
Sponge attacks increasingly threaten LLM systems by inducing excessive computation and DoS. Existing defenses either rely on statistical filters that fail on semantically meaningful attacks or use static LLM-based detectors that struggle to adapt as attack strategies evolve. We introduce SHIELD, a multi-agent, auto-healing defense framework centered on a three-stage Defense Agent that integrates semantic similarity retrieval, pattern matching, and LLM-based reasoning. Two auxiliary agents, a Knowledge Updating Agent and a Prompt Optimization Agent, form a closed self-healing loop, when an attack bypasses detection, the system updates an evolving knowledgebase, and refines defense instructions. Extensive experiments show that SHIELD consistently outperforms perplexity-based and standalone LLM defenses, achieving high F1 scores across both non-semantic and semantic sponge attacks, demonstrating the effectiveness of agentic self-healing against evolving resource-exhaustion threats.
研究动机与目标
- 在真实部署中推动对LLM系统免受资源耗尽型海绵攻击的稳健保护。
- 提出一个随攻击策略演变而演进的自我修复防御框架。
- 通过早期阶段检测在保持高检测准确率的同时最小化延迟。
- 通过自治的知识更新与提示优化实现持续的防御改进。
提出的方法
- 三阶段防御代理管线:语义相似性筛选、KMP的子串匹配,以及基于LLM的语义判断推理。
- 辅助知识更新代理(KUA)在攻击绕过检测时创建并更新海绵模式的知识库。
- 提示优化代理(POA)执行进化性提示搜索,在不重新训练防御者LLM的情况下改进防御提示。
- 闭环运行:KUA 更新知识库,POA 对提示进行改进,从而提升早期阶段检测的效果。
- 评估将 SHIELD 与困惑度过滤(perplexity-filter)和危害过滤(harm-filter)基线在非语义和语义海绵攻击下进行比较。

实验结果
研究问题
- RQ1自动修复、具代理性的框架如何提升对LLMs日益演变的海绵攻击的鲁棒性?
- RQ2三阶段防御加上知识更新与提示优化对检测准确率与延迟有何影响?
- RQ3系统是否能够检测未见的海绵攻击变体并减少对每个查询成本高昂的LLM推理的依赖?
- RQ4持续的知识库增长与提示优化如何随着时间改变端到端性能?
主要发现
- SHIELD 在多种攻击类型中实现了最高的F1分数,较基线领先幅度达3–14%。
- 阶段3的LLM推理成本较高,而前几个阶段通过在不调用LLM的情况下实现大多数检测,显著降低端到端延迟。
- 提示优化(POA)在进化攻击上可实现约30%的F1分数绝对提升。
- 知识更新(KUA)随着知识库的增长将检测向更早阶段转移,减少对阶段3的依赖。
- SHIELD 能在多目标模型上稳健检测已知与未见的海绵攻击。
- 三阶段防御加自我修复循环在不重训练模型的情况下维持检测能力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。