QUICK REVIEW

[논문 리뷰] AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks

Yifan Zeng, Yiran Wu|arXiv (Cornell University)|2024. 03. 02.

Network Security and Intrusion Detection인용 수 11

한 줄 요약

AutoDefense는 응답 필터링 다중 에이전트 프레임워크로, 협력적으로 악성 출력 분석/필터링을 통해 jailbreak 프롬프트로부터 LLM을 방어하고, 정상 사용 시에는 영향을 최소화하면서 강인성을 향상시킨다.

ABSTRACT

Despite extensive pre-training in moral alignment to prevent generating harmful information, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a multi-agent defense framework that filters harmful responses from LLMs. With the response-filtering mechanism, our framework is robust against different jailbreak attack prompts, and can be used to defend different victim models. AutoDefense assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. With AutoDefense, small open-source LMs can serve as agents and defend larger models against jailbreak attacks. Our experiments show that AutoDefense can effectively defense against different jailbreak attacks, while maintaining the performance at normal user request. For example, we reduce the attack success rate on GPT-3.5 from 55.74% to 7.95% using LLaMA-2-13b with a 3-agent system. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.

연구 동기 및 목표

Variety한 LLM 크기와 정렬에도 불구하고 jailbreak 공격으로부터의 견고한 보호를 동기화한다.
다중 LLM 에이전트를 사용하여 응답을 필터링하는 유연하고 모델에 독립적인 방어를 제안한다.
프레임워크 내에서 에이전트로서 추가 방어 구성요소의 통합을 가능하게 한다.

제안 방법

입력 에이전트, 방어 기관(다중 에이전트), 출력 에이전트의 3-요소 방어 파이프라인을 구현한다.
의도 분석, 프롬프트 추론, 최종 판단을 하나에서 세 개의 LLM 에이전트와 조정자가 함께 수행하도록 방어를 분해한다.
Cot와 같은 구조화된 프롬프트 방식과 에이전트 프롬프트를 사용하여 하위 작업을 안내한다.
해로운 프롬프트와 안전 프롬프트를 사용하여 ASR, FPR, 정확도를 측정한다.
GPT-3.5 및 LLaMA-2 변형과 같은 오픈소스 LLM 등 다양한 모델에서 확장성을 입증한다.
에이전트를 추가하면 ASR이 감소하면서 안전한 콘텐츠에 대한 영향이 낮게 유지됨을 보여준다.

실험 결과

연구 질문

RQ1다중 에이전트 방어가 다양한 LLM에서 jailbreak 공격 성공률을 신뢰성 있게 감소시킬 수 있는가?
RQ2방어 에이전트의 수를 늘리면 오탐 없이 견고성과 정확도가 향상되는가?
RQ3프레임워크가 다른 방어 구성요소를 추가 에이전트로 통합하는 정도는 어떻게 되는가?
RQ4방어 강도(ASR)와 정상 프롬프트에 대한 부작용(FPR) 간의 트레이드오프는 어떤가?

주요 결과

AutoDefense는 여러 LLM 및 다양한 공격 방법에서 jailbreak ASR을 크게 감소시킨다.
3에이전트 구성은 일반적으로 단일 에이전트 구성을 능가하여 ASR를 감소시키고 FPR을 유지한다.
오픈소스 더 작 은 LLM(Fi.e., LLaMA-2-13b 등)을 사용할 경우 비용이 낮고 추론 속도가 빠르면서도 경쟁력 있는 방어 성능을 얻는다.
추가적인 Llama Guard 에이전트를 추가하면 ASR은 경쟁력 있는 수준으로 유지하면서 FPR을 크게 낮출 수 있다.
프레임워크는 확장 가능하며 안전 지표를 추가로 향상시키기 위해 더 많은 방어 에이전트를 도입할 수 있다.
실험 결과는 높은 방어 정확도(예: 92.91% 중 하나의 설정)와 정상 사용자 요청에 대한 최소한의 영향으로 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.