QUICK REVIEW

[논문 리뷰] SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks

Alexander Robey, Eric Wong|arXiv (Cornell University)|2023. 10. 05.

Topic Modeling인용 수 28

한 줄 요약

SmoothLLM은 입력 프롬프트를 무작위로 섭동하고 LLM 출력을 집계하여 adversarial jailbreak를 완화하는 랜덤 방어 래퍼로, 여러 모델에서 공격 성공률을 1% 미만으로 감소시키고 높은 쿼리 효율성과 입증 가능한 보장을 제공합니다.

ABSTRACT

Despite efforts to align large language models (LLMs) with human intentions, widely-used LLMs such as GPT, Llama, and Claude are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. Across a range of popular LLMs, SmoothLLM sets the state-of-the-art for robustness against the GCG, PAIR, RandomSearch, and AmpleGCG jailbreaks. SmoothLLM is also resistant against adaptive GCG attacks, exhibits a small, though non-negligible trade-off between robustness and nominal performance, and is compatible with any LLM. Our code is publicly available at \url{https://github.com/arobey1/smooth-llm}.

연구 동기 및 목표

적대적 프롬프트에 의한 jailbreaking에 대한 방어책의 포괄적 요구사항 정의(공격 완화, 비보수성, 효율성, 호환성).
적대적 프롬프트에 의한 jailbreaking에 대한 첫 번째 일반 목적의 방어책으로 SmoothLLM를 제안.
섭동 안정성 가정하에 공격 완화에 대한 이론적 보장을 제공.
다수의 인기 LLM 및 공격에 걸쳐 SmoothLLM를 경험적으로 평가하고 기본 공격과의 쿼리 효율성을 비교.

제안 방법

적대적 접미사는 문자 수준의 섭동에 취약하다는 것을 식별한다.
입력 프롬프트의 N개의 섭동된 사본을 생성하는 섭동 단계를 도입하고, 이는 q%로 제어된 삽입(insert), 교환(swap), 또는 패치(patch) 변경을 사용한다.
섭동된 프롬프트를 LLM에 전달하고 다수결로 프롬프트가 jailbreak되는지 판단하는 집계 단계를 도입하며, 섭동된 실행들에서 일관된 응답을 선택한다.
SmoothLLM의 형식적 정의를 제공하고 k-unstable suffix 가정하에서 방어 성공 확률(DSP)을 분석한다.
swap 섭동에 대한 DSP의 닫힌 형식 표현을 도출하고 N(샘플 수)과 q(섭동) 가 견고성에 미치는 영향을 논의한다.
GCG jailbreak에 대한 강건성 및 효율성을 평가하고 폐쇄형 소스 LLM들과의 호환성을 논의한다.

실험 결과

연구 질문

RQ1SmoothLLM이 모델 재훈련 없이도 adversarial-prompting jailbreak를 완화할 수 있는가?
RQ2섭동 수준 q와 샘플 수 N이 공격 완화 및 명목 성능에 어떤 영향을 미치는가?
RQ3섭동-안정성 가정하에서 SmoothLLM에 대한 이론적 보장은 무엇인가?
RQ4SmoothLLM이 오픈소스와 폐쇄형 소스 LLM 모두와 호환되며 prior 공격들보다 효율적인가?
RQ5SmoothLLM이 PAIR와 같은 의미 jailbreak로 확장되는가?

주요 결과

SmoothLLM은 GCG의 공격 성공률을 Llama2, Vicuna, GPT-3.5, GPT-4, Claude-1, Claude-2, PaLM-2 등 일곱 개의 LLM에서 1% 미만으로 감소시킨다.
Llama2와 Vicuna의 경우, 각 방어되지 않은 모델 대비 약 50배, 100배 정도 감소시킨다.
SmoothLLM은 GCG보다 10^5에서 10^6개의 더 적은 쿼리를 사용하며 실행 시간도 수천 배 빠르다.
섭동 안정성(k-unstable suffix) 하에서 접미사 기반 공격 완화에 대한 고확률 보장을 제공한다.
작은 섭동 수준(q가 약 5%)일 때 표준 NLP 벤치마크에서 nominal 성능을 유지한다.
SmoothLLM은 Vicuna에서 swap 섭동으로 PAIR 의미족 jailbreak의 ASR을 92%에서 약 50%로 감소시키며(주된 목표는 아님).
방어는 아키텍처에 독립적이며 모든 LLM과 호환되며, ASR은 전이된 접미사에서 1% 미만으로 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.