Skip to main content
QUICK REVIEW

[논문 리뷰] SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks

Alexander Robey, Eric Wong|arXiv (Cornell University)|2023. 10. 05.
Topic Modeling인용 수 28
한 줄 요약

SmoothLLM은 입력 프롬프트를 무작위로 섭동하고 LLM 출력을 집계하여 adversarial jailbreak를 완화하는 랜덤 방어 래퍼로, 여러 모델에서 공격 성공률을 1% 미만으로 감소시키고 높은 쿼리 효율성과 입증 가능한 보장을 제공합니다.

ABSTRACT

Despite efforts to align large language models (LLMs) with human intentions, widely-used LLMs such as GPT, Llama, and Claude are susceptible to jailbreaking attacks, wherein an adversary fools a targeted LLM into generating objectionable content. To address this vulnerability, we propose SmoothLLM, the first algorithm designed to mitigate jailbreaking attacks. Based on our finding that adversarially-generated prompts are brittle to character-level changes, our defense randomly perturbs multiple copies of a given input prompt, and then aggregates the corresponding predictions to detect adversarial inputs. Across a range of popular LLMs, SmoothLLM sets the state-of-the-art for robustness against the GCG, PAIR, RandomSearch, and AmpleGCG jailbreaks. SmoothLLM is also resistant against adaptive GCG attacks, exhibits a small, though non-negligible trade-off between robustness and nominal performance, and is compatible with any LLM. Our code is publicly available at \url{https://github.com/arobey1/smooth-llm}.

연구 동기 및 목표

  • 적대적 프롬프트에 의한 jailbreaking에 대한 방어책의 포괄적 요구사항 정의(공격 완화, 비보수성, 효율성, 호환성).
  • 적대적 프롬프트에 의한 jailbreaking에 대한 첫 번째 일반 목적의 방어책으로 SmoothLLM를 제안.
  • 섭동 안정성 가정하에 공격 완화에 대한 이론적 보장을 제공.
  • 다수의 인기 LLM 및 공격에 걸쳐 SmoothLLM를 경험적으로 평가하고 기본 공격과의 쿼리 효율성을 비교.

제안 방법

  • 적대적 접미사는 문자 수준의 섭동에 취약하다는 것을 식별한다.
  • 입력 프롬프트의 N개의 섭동된 사본을 생성하는 섭동 단계를 도입하고, 이는 q%로 제어된 삽입(insert), 교환(swap), 또는 패치(patch) 변경을 사용한다.
  • 섭동된 프롬프트를 LLM에 전달하고 다수결로 프롬프트가 jailbreak되는지 판단하는 집계 단계를 도입하며, 섭동된 실행들에서 일관된 응답을 선택한다.
  • SmoothLLM의 형식적 정의를 제공하고 k-unstable suffix 가정하에서 방어 성공 확률(DSP)을 분석한다.
  • swap 섭동에 대한 DSP의 닫힌 형식 표현을 도출하고 N(샘플 수)과 q(섭동) 가 견고성에 미치는 영향을 논의한다.
  • GCG jailbreak에 대한 강건성 및 효율성을 평가하고 폐쇄형 소스 LLM들과의 호환성을 논의한다.

실험 결과

연구 질문

  • RQ1SmoothLLM이 모델 재훈련 없이도 adversarial-prompting jailbreak를 완화할 수 있는가?
  • RQ2섭동 수준 q와 샘플 수 N이 공격 완화 및 명목 성능에 어떤 영향을 미치는가?
  • RQ3섭동-안정성 가정하에서 SmoothLLM에 대한 이론적 보장은 무엇인가?
  • RQ4SmoothLLM이 오픈소스와 폐쇄형 소스 LLM 모두와 호환되며 prior 공격들보다 효율적인가?
  • RQ5SmoothLLM이 PAIR와 같은 의미 jailbreak로 확장되는가?

주요 결과

  • SmoothLLM은 GCG의 공격 성공률을 Llama2, Vicuna, GPT-3.5, GPT-4, Claude-1, Claude-2, PaLM-2 등 일곱 개의 LLM에서 1% 미만으로 감소시킨다.
  • Llama2와 Vicuna의 경우, 각 방어되지 않은 모델 대비 약 50배, 100배 정도 감소시킨다.
  • SmoothLLM은 GCG보다 10^5에서 10^6개의 더 적은 쿼리를 사용하며 실행 시간도 수천 배 빠르다.
  • 섭동 안정성(k-unstable suffix) 하에서 접미사 기반 공격 완화에 대한 고확률 보장을 제공한다.
  • 작은 섭동 수준(q가 약 5%)일 때 표준 NLP 벤치마크에서 nominal 성능을 유지한다.
  • SmoothLLM은 Vicuna에서 swap 섭동으로 PAIR 의미족 jailbreak의 ASR을 92%에서 약 50%로 감소시키며(주된 목표는 아님).
  • 방어는 아키텍처에 독립적이며 모든 LLM과 호환되며, ASR은 전이된 접미사에서 1% 미만으로 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.