QUICK REVIEW

[논문 리뷰] SHIELD: An Auto-Healing Agentic Defense Framework for LLM Resource Exhaustion Attacks

Nirhoshan Sivaroopan, Kanchana Thilakarathna|arXiv (Cornell University)|2026. 01. 27.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

SHIELD은 세 단계 탐지기와 지식 업데이트 및 프롬프트 최적화를 활용한 자가 치유형 다에이전트 방어를 도입하여 LLM을 스펀지(sponge) 공격으로부터 보호하며, 보지 못한 변형도 포함합니다.

ABSTRACT

Sponge attacks increasingly threaten LLM systems by inducing excessive computation and DoS. Existing defenses either rely on statistical filters that fail on semantically meaningful attacks or use static LLM-based detectors that struggle to adapt as attack strategies evolve. We introduce SHIELD, a multi-agent, auto-healing defense framework centered on a three-stage Defense Agent that integrates semantic similarity retrieval, pattern matching, and LLM-based reasoning. Two auxiliary agents, a Knowledge Updating Agent and a Prompt Optimization Agent, form a closed self-healing loop, when an attack bypasses detection, the system updates an evolving knowledgebase, and refines defense instructions. Extensive experiments show that SHIELD consistently outperforms perplexity-based and standalone LLM defenses, achieving high F1 scores across both non-semantic and semantic sponge attacks, demonstrating the effectiveness of agentic self-healing against evolving resource-exhaustion threats.

연구 동기 및 목표

실제 배포에서 LLM 시스템을 자원 고갈 스펀지 공격으로부터 안정적으로 보호하는 동기를 제시합니다.
진화하는 공격 전략에 따라 발전하는 자동 치유 방어 프레임워크를 제안합니다.
감지 정확도를 유지하면서 조기 단계 탐지를 통해 지연 시간을 최소화합니다.
자율적인 지식 업데이트와 프롬프트 최적화를 통해 지속적으로 방어를 개선합니다.

제안 방법

세 단계 방어 에이전트 파이프라인: 의미적 유사성 필터링, KMP를 이용한 부분 문자열 매칭, 의미 판단을 위한 LLM 기반 추론.
보조 지식 업데이트 에이전트(KUA)는 탐지를 우회하는 공격에 대해 스펀지 패턴의 지식베이스를 생성하고 업데이트합니다.
프롬프트 최적화 에이전트(POA)는 재훈련 없이 방어 프롬프트를 다듬기 위해 진화적 프롬프트 검색을 수행합니다.
KUA가 지식베이스를 업데이트하고 POA가 프롬프트를 다듬는 순환형 작동으로 초기 단계 탐지를 시간이 지남에 따라 향상시킵니다.
평가에서 SHIELD를 비의미적 스펀지 공격 및 의미적 스펀지 공격에 걸쳐 퍼플렉시티-필터 및 해름-필터 기준선과 비교합니다.

실험 결과

연구 질문

RQ1자동 치유형 에이전트적 프레임워크가 LLM에 대한 진화하는 스펀지 공격에 대한 강건성을 어떻게 향상시킬 수 있는가?
RQ2세 단계 방어와 지식 업데이트 및 프롬프트 최적화가 탐지 정확도와 지연 시간에 어떤 영향을 미치는가?
RQ3시스템은 보지 못한 스펀지 공격 변형을 탐지하고 쿼리당 비용이 큰 LLM 추론 의존도를 줄일 수 있는가?
RQ4지식 베이스의 지속적 확장과 프롬프트 최적화가 시간에 따라 엔드-투-엔드 성능에 어떤 영향을 미치는가?

주요 결과

SHIELD는 공격 유형 전반에서 가장 높은 F1 점수를 달성했으며, 기준선 대비 최대 3–14%p의 우수성을 보였습니다.
Stage 3 LLM 기반 추론은 비용이 많이 들지만, 초기 단계가 LLM 호출 없이 대부분의 탐지를 가능하게 하여 엔드-투-엔드 지연 시간을 크게 줄입니다.
프롬프트 최적화(POA)는 진화하는 공격에서 F1 점수를 절대적으로 약 30% 향상시킵니다.
지식 업데이트(KUA)가 지식베이스가 커짐에 따라 탐지를 더 이른 단계로 이동시키고 Stage 3 의 의존도를 감소시킵니다.
SHIELD는 알려진 공격과 보지 못한 스펀지 공격 모두에 대해 여러 대상 모델에서 견고하게 탐지합니다.
세 단계 방어와 자동 치유 루프는 모델 재훈련 없이 탐지를 지속합니다.

Figure 2: SHIELD overview: (i) multi-agent framework (ii) three-stage defense and (iii) prompt optimizer.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.