QUICK REVIEW

[논문 리뷰] Jailbreaking Attack against Multimodal Large Language Model

Zhenxing Niu, Haodong Ren|arXiv (Cornell University)|2024. 02. 04.

Adversarial Robustness in Machine Learning인용 수 11

한 줄 요약

논문은 다중모달 대형 언어 모델에 대한 최대우도 기반 jailbreaking 공격(imgJP 및 deltaJP)을 제시하고, 데이터-범용성 특성과 모델 이전 가능성을 보이며, 효율성을 개선한 구성 기반 방법으로 LLM jailbreaking으로 확장하는 방법을 소개한다.

ABSTRACT

This paper focuses on jailbreaking attacks against multi-modal large language models (MLLMs), seeking to elicit MLLMs to generate objectionable responses to harmful user queries. A maximum likelihood-based algorithm is proposed to find an \emph{image Jailbreaking Prompt} (imgJP), enabling jailbreaks against MLLMs across multiple unseen prompts and images (i.e., data-universal property). Our approach exhibits strong model-transferability, as the generated imgJP can be transferred to jailbreak various models, including MiniGPT-v2, LLaVA, InstructBLIP, and mPLUG-Owl2, in a black-box manner. Moreover, we reveal a connection between MLLM-jailbreaks and LLM-jailbreaks. As a result, we introduce a construction-based method to harness our approach for LLM-jailbreaks, demonstrating greater efficiency than current state-of-the-art methods. The code is available here. extbf{Warning: some content generated by language models may be offensive to some readers.}

연구 동기 및 목표

MLLM이 이미지 프롬프트(imgJP)와扰동(deltaJP)으로 jailbreaking에 취약하다는 것을 입증한다.
유해한 질의의 대상 출력을 최대화하기 위한 최대우도 프레임워크를 개발한다.
여러 MLLMs 간에 데이터-범용성(프롬프트- 및 이미지-범용성)과 모델 이전 가능성을 보여준다.
효율적인 LLM jailbreaking을 위해 LLM jailbreaking을 활용하는 구성 기반 방법을 탐구한다.
black-box 공격 성공을 높이기 위한 앙상블 대리모델 전략을 제안한다.

제안 방법

쿼리와 이미지에 조건화된 대상 유해 출력의 로그 확률을 최대화하는 방식으로 jailbreaking을 수식화한다(Eq. 1).
주어진 입력 이미지를扰动하기 위한 공격 예산으로 deltaJP로 확장한다(Eq. 2).
이미지 분포에 대한扰动을 모아 이미지-범용 deltaJP로 일반화한다(Eq. 3).
전이 효율을 높이기 위해 여러 대리 MLLMs에 대한 앙상블 학습을 사용한다(Eq. 4).
embJP에서 txtJP를 도출하는 De-embedding 및 De-tokenizer 연산을 통해 대상 LLM을 jailbreaking하기 위한 구성 기반 공격을 도입한다.
효과적인 txtJP 토큰을 생성하기 위한 풀-기반의 효율적 샘플링(RandSet) 전략을 적용한다(Top-1, Random-1, RandSet).

Figure 1: An example of a jailbreaking attack against MiniGPT-v2. With a normal image as input, MiniGPT-v2 will refuse to answer the harmful request ( e.g. , replying ‘ I’m sorry, I cannot fulfill your request ’). In contrast, with our generated imgJP , MiniGPT-v2 responds to the harmful request.

실험 결과

연구 질문

RQ1MLLM은 보지 못한 프롬프트와 이미지에 대해 이미지 프롬프트(imgJP) 및 이미지扰动(deltaJP)로 안정적으로 jailbreaking이 가능할까?
RQ2 jailbreaking 프롬프트가 여러 유해 프롬프트 및 이미지 카테고리에서 데이터-범용 특성을 보이는가?
RQ3블랙박스 설정에서 서로 다른 MLLM 아키텍처 간 jailbreaking이 이전 가능한가?
RQ4구성 기반 접근법을 통해 MLM jailbreaking 기법을 활용해 효율적인 LLM jailbreaking이 가능할까?
RQ5앙상블 대리모델 전략이 전달 가능성과 성공률에 어떤 영향을 미치는가?

주요 결과

imgJP 기반 jailbreaking은 화이트박스 설정에서 여러 MLLMs에 대해 높은 ASR을 달성한다(예: 다양한 구성에서 학습/테스트 77–93%까지).
deltaJP 기반 jailbreaking은 프롬프트-범용성과 이미지-범용성을 모두 보여주며 카테고리에 따라 효과가 다르게 나타난다.
모델 이전 가능성은 mPLUG-Owl2, LLaVA, MiniGPT-v2, InstructBLIP에서의 성공적 블랙박스 jailbreaking으로 입증되며, 앙상블 대리모델 사용 시 상당한 이득이 있다.
구성 기반 LLM jailbreaking은 최첨단 방법에 비해 높은 효율성을 달성한다(예: 20개의 역(txtJP) 풀에서 93% ASR).
세 개의 대리 모델을 앙상블하면 전달 가능성과 성공률이 향상되어 단일 모델 대리모델보다 목표 모델에서 더 높은 ASR을 얻는다.

Figure 2: The jailbreaks with imgJP. Given a harmful request, we attempt to maximize the likelihood of generating the corresponding target outputs. The target outputs typically commence with a positive affirmation, such as “Sure, here is a (content of query)”.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.