[論文レビュー] VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
VLAttackは視覚言語事前学習モデルに対してブラックボックスの下流タスクへ転移するような敵対的摂動を作成し、単一モダリティとマルチモダリティ戦略を組み合わせて複数のモデルとタスクで高い攻撃成功率を示す。画像に対するBlock-wise Similarity Attack(BSA)とマルチモダリティ perturbationsに対するIterative Cross-Search Attack(ICSA)を導入。
Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLATTACK to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack five widely-used VL pre-trained models for six tasks. Experimental results show that VLATTACK achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a blind spot in the deployment of pre-trained VL models. Source codes can be found at https://github.com/ericyinyzy/VLAttack.
研究の動機と目的
- ブラックボックス環境で下流タスクのモデルにアクセスできない状況における視覚言語モデルの対 adversarial robustness の動機付けと研究。
- 事前学習済みVLモデルを介して複数の下流VLタスクを攻撃可能な一般的な攻撃フレームワークの開発。
- 転移性を最大化する単一モダリティおよびマルチモダリティの摂動戦略を提案。
提案手法
- 単一モダリティレベル: Block-wise Similarity Attack(BSA)を用いて画像エンコーダと事前学習モデルのTransformerエンコーダの中間表現間のブロック単位コサイン距離を最大化する画像摂動を生成。
- 単一モダリティレベル: Semanticsを閾値以上に保つよう universal sentence encoder を用いてセマンティック類似性を維持しつつ強力なNLP攻撃(BERT-Attack)でテキスト摂動を適用。
- マルチモダリティレベル: Iterative Cross-Search Attack(ICSA)を実行し、他方のモダリティに導かれて画像-テキストペアを反復更新し、上位k件のテキスト摂動を再利用して画像摂動を洗練。
- クロスモーダルランキング: ベニンテキストとのコサイン類似性で上位K件のテキスト摂動を選択し、意味を保持しつつ下流予測の撹乱を最大化。
- 脅威モデルの整合性: 事前学習済みモデルへアクセスでき、下流のファインチューニングモデルをブラックボックスとしてのみクエリ可能という設定を想定。
実験結果
リサーチクエスチョン
- RQ1下流のブラックボックスVLモデルへ、事前学習済みVLモデルからの摂動がタスク間でどれほど転移するか。
- RQ2単一モダリティとマルチモダリティ摂動の組み合わせは、ブラックボックスVL設定における単一モダリティ攻撃よりも優れているか。
- RQ3VLモデルにおける摂動の転移性を駆動する仕組み(画像特徴ブロック、テキスト意味論)は何か。
- RQ4反復的クロスサーチは、より単純なマルチモダリティ戦略と比較して攻撃成功率を向上させるか。
主な発見
- VLAttackは、5つの事前学習VLモデルと6つのタスクで最先端ベースラインより高い攻撃成功率を達成。
- Block-wise Similarity Attack(BSA)は、中間表現を撹乱することにより画像のみの摂動を大幅に改善。
- Multimodal Iterative Cross-Search Attack(ICSA)は、意味的に類似したテキスト摂動によって導かれた画像摂動の相互更新を通じて成功率をさらに改善。
- 単一モダリティのテキスト摂動だけでは、短いテキスト長のためにしばしば劣り、強力な攻撃にはマルチモダリティの結合が crucial。
- 単一モジュール設定では、BSAは画像キャプション生成および画像分類タスクにも効果的であり、広い適用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。