Skip to main content
QUICK REVIEW

[論文レビュー] Black Box Adversarial Prompting for Foundation Models

Natalie Maus, Patrick Chao|arXiv (Cornell University)|Feb 8, 2023
Generative Adversarial Networks and Image Synthesis被引用数 13
ひとこと要約

本論文は、Token Space Projection によって連続埋め込みを離散トークンへ写像し、Vision と Language のファウンデーションモデル双方の敵対的プロンプトを発見するブラックボックスフレームワークを提示し、Square Attack と Bayesian Optimization でプロンプトを最適化する。

ABSTRACT

Prompting interfaces allow users to quickly adjust the output of generative models in both vision and language. However, small changes and design choices in the prompt can lead to significant differences in the output. In this work, we develop a black-box framework for generating adversarial prompts for unstructured image and text generation. These prompts, which can be standalone or prepended to benign prompts, induce specific behaviors into the generative process, such as generating images of a particular object or generating high perplexity text.

研究の動機と目的

  • 一般的な視覚および言語タスクに対するブラックボックス設定での敵対的プロンプトの研究を動機づける。
  • 連続埋め込みと離散言語トークンを橋渡しする Token Space Projection 技法を導入する。
  • さまざまな脅威モデル下で敵対的プロンプトを探索する最適化手法を開発・評価する。
  • 小さなプロンプトの追加・拡張がモデル出力を対象クラスや挙動へ向けて誘導できることを示す。

提案手法

  • 敵対的プロンプトを定義し、生成された応答に基づく損失ベースの目的を定式化する。
  • Token Space Projection を導入し、closest-token projection を介して連続埋め込みを離散プロンプトへ写像する。
  • EMR 緩和を用いたブラックボックス最適化アルゴリズム(Square Attack と TuRBO)を用いて埋め込み空間上で最適化する。
  • 分類器損失と特徴損失ターゲットの下で、2 種類のプロンプトクラス( standalone と prepended)を評価する。
  • 高類似性トークンを避ける制限付きプロンプト設定を適用し、 predefined seeds への prepended prompts を検討する。
(a) Images generated by Stable Diffusion v1.5 [ 59 ] using the prompts (Left) ‘ a picture of a mountain ’ and (Right) ‘ turbo lhaff✓a picture of a mountain ’, found by our method. The prepended text causes the model to consistently generate dogs rather than mountains.
(a) Images generated by Stable Diffusion v1.5 [ 59 ] using the prompts (Left) ‘ a picture of a mountain ’ and (Right) ‘ turbo lhaff✓a picture of a mountain ’, found by our method. The prepended text causes the model to consistently generate dogs rather than mountains.

実験結果

リサーチクエスチョン

  • RQ1敵対的プロンプトは、画像生成タスクとテキスト生成タスクの両方でブラックボックス設定で発見できるか。
  • RQ2closest-token projection を用いた離散プロンプト空間でブラックボックス最適化を有効にすることは可能か。
  • RQ3視覚と言語モデルの信頼性ある敵対的プロンプティングを可能にする脅威モデルと損失関数は何か。
  • RQ4ブラックボックス最適化は高次元のプロンプト空間で、基準手法と比較してどの程度性能を発揮するか。

主な発見

  • 敵対的プロンプトは、テキストから画像への変換とテキスト生成タスクの両方でブラックボックス設定で発見できる。
  • Token Space Projection により、連続埋め込みを用いて離散トークン空間の効果的な最適化が可能になる。
  • 2つのブラックボックス最適化手法(Square Attack と TuRBO)は、さまざまなタスクと脅威モデルの下で成功を示す。
  • 敵対的プロンプトは、画像生成を対象クラスへ向けて誘導し、 incoherent または高い perplexity のテキストを生成させることができる。
  • 高い類似性トークンを除外してプロンプトを制限すると、タスクの難易度は上がるが依然として実現可能である。
(a) Task 2 generated images with the class lizard .
(a) Task 2 generated images with the class lizard .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。