QUICK REVIEW

[논문 리뷰] Tree of Attacks: Jailbreaking Black-Box LLMs Automatically

Anay Mehrotra, Manolis Zampetakis|arXiv (Cornell University)|2023. 12. 04.

Topic Modeling인용 수 22

한 줄 요약

이 논문은 TAP를 소개한다. TAP는 자동적이고 블랙박스 jailbreaking 방법으로, 생각의 트리(Tree-of-Thought) 추론과 가지치기를 이용해 의미론적으로 타당한 프롬프트를 생성하고, 이전 연구보다 더 적은 쿼리로 더 높은 탈주 성공률을 달성한다.

ABSTRACT

While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an attacker LLM to iteratively refine candidate (attack) prompts until one of the refined prompts jailbreaks the target. In addition, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks, reducing the number of queries sent to the target LLM. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4-Turbo and GPT4o) for more than 80% of the prompts. This significantly improves upon the previous state-of-the-art black-box methods for generating jailbreaks while using a smaller number of queries than them. Furthermore, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard.

연구 동기 및 목표

LLM의 안전 한계와 정렬 취약점을 이해하기 위한 자동적이고 블랙박스인 탈주 연구의 동기를 부여한다.
모델 내부 접근 없이 탈주 프롬프트를 생성하는 쿼리 효율적인 방법을 개발한다.
생각의 트리 추론과 가지치기를 활용하여 불필요한 쿼리를 줄이면서 큰 프롬프트 공간을 탐색한다.
다양한 타깃 LLM에 대해 TAP를 평가하고 최첨단 베이스라인과 비교한다.
가지치기, 생각 트리, 평가자 선택, 공격의 전이성 요인을 분석한다.

제안 방법

TAP는 세 가지 LLM를 사용한다: 탈주 프롬프트를 생성하는 공격자, 탈주 성공 여부와 주제 적합성을 판단하는 평가자, 탈주 대상인 타깃 LLM.
프롬프트는 깊이 d, 너비 w, 분기 계수 b의 트리 구조에서 생각의 트리 추론을 사용해 다듬어진다.
Phase 1 가지치기는 타깃에 쿼리하기 전에 주제 벗어난 프롬프트를 제거하여 낭비 쿼리를 줄인다.
Phase 2 가지치기는 평가자 점수로 상위-w의 프롬프트를 남겨 트리의 다음 계층을 형성한다.
탈주가 발견되거나 최대 깊이에 도달할 때까지 이 과정을 반복하며, 총 타깃 쿼리는 b, w, d의 함수에 의해 한정된다.
이 방법은 PAIR의 일반화이며, 생각의 트리 추론과 가지치기를 통한 중복 및 주제 밖 프롬프트 감소의 개선점을 포함한다.

실험 결과

연구 질문

RQ1의미론적으로 의미 있는 프롬프트를 탐색하는 쿼리 효율적인 검색으로 자동적이고 블랙박스인 탈주가 효과적으로 달성될 수 있는가?
RQ2생각의 트리 추론과 주제 내 가지치기가 탈주 성공률을 높이고 타깃 모델에 대한 쿼리 수를 줄이는가?
RQ3TAP가 PAIR 및 다른 베이스라인과 다양한 타깃 LLM에서 어떻게 비교되는가?
RQ4평가자 선택과 가지치기가 탈주 성공과 쿼리 효율에 어떤 영향을 미치는가?
RQ5생성된 탈주 프롬프트가 서로 다른 LLM들 간에 전이성이 있는가?

주요 결과

TAP는 대상 모델들에서 PAIR보다 훨씬 더 큰 비율의 프롬프트에 대해 탈주를 발견한다.
GPT4-Turbo에서 TAP는 프롬프트의 84-90%에 대해 탈주를 수행하며 PAIR보다 현저하게 적은 쿼리로 가능하다(예: 평균 쿼리 22.5–28.8).
주제 벗어난 프롬프트의 가지치기( Phase 1 )는 전체 타깃 쿼리를 상당히 감소시키고 성공률을 향상시킨다.
생각의 트리 가지치기(비제로 b)는 단일 가지 버전에 비해 성공률을 크게 향상시킨다.
평가자의 능력이 중요하다; 평가자로 GPT-4를 사용하는 것이 일부 대안들보다 더 나은 성능을 얻으며, 최적의 평가자 선택에 대한 개방형 문제는 남아 있다.
전이성: 다수의 TAP로 생성된 탈주가 다른 모델로 전이되지만 Llama-2-Chat-7B와 같은 주목할 만한 예외가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.