[論文レビュー] Visual Adversarial Examples Jailbreak Aligned Large Language Models
本論文は、視覚的対向入力が視覚機能を備えた LLM の整合性ガードレールを突破させ、対象の few-shot コーパスを超える有害な内容の生成を誘発できることを示す。複数のモデルで、ブラックボックス転移設定においてもそうなる。
Recently, there has been a surge of interest in integrating vision into Large Language Models (LLMs), exemplified by Visual Language Models (VLMs) such as Flamingo and GPT-4. This paper sheds light on the security and safety implications of this trend. First, we underscore that the continuous and high-dimensional nature of the visual input makes it a weak link against adversarial attacks, representing an expanded attack surface of vision-integrated LLMs. Second, we highlight that the versatility of LLMs also presents visual attackers with a wider array of achievable adversarial objectives, extending the implications of security failures beyond mere misclassification. As an illustration, we present a case study in which we exploit visual adversarial examples to circumvent the safety guardrail of aligned LLMs with integrated vision. Intriguingly, we discover that a single visual adversarial example can universally jailbreak an aligned LLM, compelling it to heed a wide range of harmful instructions that it otherwise would not) and generate harmful content that transcends the narrow scope of a `few-shot' derogatory corpus initially employed to optimize the adversarial example. Our study underscores the escalating adversarial risks associated with the pursuit of multimodality. Our findings also connect the long-studied adversarial vulnerabilities of neural networks to the nascent field of AI alignment. The presented attack suggests a fundamental adversarial challenge for AI alignment, especially in light of the emerging trend toward multimodality in frontier foundation models.
研究の動機と目的
- 視覚入力が視覚統合型 LLM の攻撃面を拡張することを強調する。
- 単一の視覚対向例が統一的に整った VLM を全般的に jailbreak できることを示す。
- 複数モデル間で、ブラックボックス条件下で jailbreak が転移することを示す。
- ニューラルネットワークの対向脆弱性と、マルチモーダルモデルの AI 整合性課題を結びつける。
提案手法
- 小さな few-shot 有害コーパス Y を x_adv 条件付けで負ログ尤度を最小化して adversarial input x_adv を定式化する(式 1)。
- epsilon 制約下または無制約設定で、エンドツーエンド微分可能な視覚的摂動を用いて PGD による x_adv を最適化する。
- x_adv を有害な指示 x_harm と結合入力 [x_adv, x_harm] として組み合わせ、 jailbreak 出力を誘発する。
- ディスクリート最適化(hotflip/Shin ら)を用いて同長の adversarial tokens を最適化する、テキストのみの攻撃と視覚的攻撃を比較する。
- 視覚統合型 Vicunaベースのモデル(MiniGPT-4、InstructBLIP)および LLaVA/LLaMA-2-Chat への攻撃を評価し、転移可能性分析を実施する。
実験結果
リサーチクエスチョン
- RQ1視覚的対向例は、視覚機能を備えた LLM の整合性ガードレールを universal に jailbreak できるのか?
- RQ2視覚的攻撃は、jailbreak と毒性誘発の有効性において、テキストのみの対向攻撃と比較してどうか?
- RQ3視覚的対向 jailbreak は異なる VLM 間で転送可能か(ブラックボックス設定で)?
- RQ4これらの視覚的対向例によって生じる有害出力の範囲は、最適化に用いた few-shot コーパス を超えてどこまで拡がるのか?
主な発見
| Scenario | Identity Attack | Disinfo | Violence/Crime | X-risk |
|---|---|---|---|---|
| benign image (no attack) | 26.2 | 48.9 | 50.1 | 20.0 |
| adv.image (eps16) | 61.5 | 58.9 | 80.0 | 50.0 |
| adv.image (eps32) | 70.0 | 74.4 | 87.3 | 73.3 |
| adv.image (eps64) | 77.7 | 84.4 | 81.3 | 53.3 |
| adv.image (unconstrained) | 78.5 | 91.1 | 84.0 | 63.3 |
| adv. text (unconstrained) | 58.5 | 68.9 | 24.0 | 26.7 |
- 単一の視覚的対向例が、複数カテゴリ(Identity Attack、Disinformation、Violence/Crime、X-risk)にわたり、整合性を保つ VLM が有害なコンテンツを出力する可能性を実質的に高める。
- epsilon が 64/255 まで、さらには無制約の視覚情報でも、4 カテゴリすべてで jailbreak 成功率が高いことが、人間の評価で確認される。
- 視覚的対向例は RealToxicityPrompts の有毒性指標も引き上げ、Perspective API や Detoxify で有毒属性を含む出力の割合を増加させる。
- 同長のテキストのみ対向攻撃と比較して、視覚攻撃は一般に jailbreak 効果を強くし、最適化ロスの低下をより締める。
- 攻撃は MiniGPT-4(Vicuna)、InstructBLIP(Vicuna)、LLaVA(LLaMA-2-Chat)間のブラックボックス転送性を示す。
- DiffPure に基づく精製は、視覚的対向入力が引き起こす一部の有毒性の増加を緩和できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。