Skip to main content
QUICK REVIEW

[논문 리뷰] Jailbreaking Attack against Multimodal Large Language Model

Zhenxing Niu, Haodong Ren|arXiv (Cornell University)|2024. 02. 04.
Adversarial Robustness in Machine Learning인용 수 11
한 줄 요약

논문은 다중모달 대형 언어 모델에 대한 최대우도 기반 jailbreaking 공격(imgJP 및 deltaJP)을 제시하고, 데이터-범용성 특성과 모델 이전 가능성을 보이며, 효율성을 개선한 구성 기반 방법으로 LLM jailbreaking으로 확장하는 방법을 소개한다.

ABSTRACT

This paper focuses on jailbreaking attacks against multi-modal large language models (MLLMs), seeking to elicit MLLMs to generate objectionable responses to harmful user queries. A maximum likelihood-based algorithm is proposed to find an \emph{image Jailbreaking Prompt} (imgJP), enabling jailbreaks against MLLMs across multiple unseen prompts and images (i.e., data-universal property). Our approach exhibits strong model-transferability, as the generated imgJP can be transferred to jailbreak various models, including MiniGPT-v2, LLaVA, InstructBLIP, and mPLUG-Owl2, in a black-box manner. Moreover, we reveal a connection between MLLM-jailbreaks and LLM-jailbreaks. As a result, we introduce a construction-based method to harness our approach for LLM-jailbreaks, demonstrating greater efficiency than current state-of-the-art methods. The code is available here. extbf{Warning: some content generated by language models may be offensive to some readers.}

연구 동기 및 목표

  • MLLM이 이미지 프롬프트(imgJP)와扰동(deltaJP)으로 jailbreaking에 취약하다는 것을 입증한다.
  • 유해한 질의의 대상 출력을 최대화하기 위한 최대우도 프레임워크를 개발한다.
  • 여러 MLLMs 간에 데이터-범용성(프롬프트- 및 이미지-범용성)과 모델 이전 가능성을 보여준다.
  • 효율적인 LLM jailbreaking을 위해 LLM jailbreaking을 활용하는 구성 기반 방법을 탐구한다.
  • black-box 공격 성공을 높이기 위한 앙상블 대리모델 전략을 제안한다.

제안 방법

  • 쿼리와 이미지에 조건화된 대상 유해 출력의 로그 확률을 최대화하는 방식으로 jailbreaking을 수식화한다(Eq. 1).
  • 주어진 입력 이미지를扰动하기 위한 공격 예산으로 deltaJP로 확장한다(Eq. 2).
  • 이미지 분포에 대한扰动을 모아 이미지-범용 deltaJP로 일반화한다(Eq. 3).
  • 전이 효율을 높이기 위해 여러 대리 MLLMs에 대한 앙상블 학습을 사용한다(Eq. 4).
  • embJP에서 txtJP를 도출하는 De-embedding 및 De-tokenizer 연산을 통해 대상 LLM을 jailbreaking하기 위한 구성 기반 공격을 도입한다.
  • 효과적인 txtJP 토큰을 생성하기 위한 풀-기반의 효율적 샘플링(RandSet) 전략을 적용한다(Top-1, Random-1, RandSet).
Figure 1: An example of a jailbreaking attack against MiniGPT-v2. With a normal image as input, MiniGPT-v2 will refuse to answer the harmful request ( e.g. , replying ‘ I’m sorry, I cannot fulfill your request ’). In contrast, with our generated imgJP , MiniGPT-v2 responds to the harmful request.
Figure 1: An example of a jailbreaking attack against MiniGPT-v2. With a normal image as input, MiniGPT-v2 will refuse to answer the harmful request ( e.g. , replying ‘ I’m sorry, I cannot fulfill your request ’). In contrast, with our generated imgJP , MiniGPT-v2 responds to the harmful request.

실험 결과

연구 질문

  • RQ1MLLM은 보지 못한 프롬프트와 이미지에 대해 이미지 프롬프트(imgJP) 및 이미지扰动(deltaJP)로 안정적으로 jailbreaking이 가능할까?
  • RQ2 jailbreaking 프롬프트가 여러 유해 프롬프트 및 이미지 카테고리에서 데이터-범용 특성을 보이는가?
  • RQ3블랙박스 설정에서 서로 다른 MLLM 아키텍처 간 jailbreaking이 이전 가능한가?
  • RQ4구성 기반 접근법을 통해 MLM jailbreaking 기법을 활용해 효율적인 LLM jailbreaking이 가능할까?
  • RQ5앙상블 대리모델 전략이 전달 가능성과 성공률에 어떤 영향을 미치는가?

주요 결과

  • imgJP 기반 jailbreaking은 화이트박스 설정에서 여러 MLLMs에 대해 높은 ASR을 달성한다(예: 다양한 구성에서 학습/테스트 77–93%까지).
  • deltaJP 기반 jailbreaking은 프롬프트-범용성과 이미지-범용성을 모두 보여주며 카테고리에 따라 효과가 다르게 나타난다.
  • 모델 이전 가능성은 mPLUG-Owl2, LLaVA, MiniGPT-v2, InstructBLIP에서의 성공적 블랙박스 jailbreaking으로 입증되며, 앙상블 대리모델 사용 시 상당한 이득이 있다.
  • 구성 기반 LLM jailbreaking은 최첨단 방법에 비해 높은 효율성을 달성한다(예: 20개의 역(txtJP) 풀에서 93% ASR).
  • 세 개의 대리 모델을 앙상블하면 전달 가능성과 성공률이 향상되어 단일 모델 대리모델보다 목표 모델에서 더 높은 ASR을 얻는다.
Figure 2: The jailbreaks with imgJP. Given a harmful request, we attempt to maximize the likelihood of generating the corresponding target outputs. The target outputs typically commence with a positive affirmation, such as “Sure, here is a (content of query)”.
Figure 2: The jailbreaks with imgJP. Given a harmful request, we attempt to maximize the likelihood of generating the corresponding target outputs. The target outputs typically commence with a positive affirmation, such as “Sure, here is a (content of query)”.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.