Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial attacks against Modern Vision-Language Models

Alejandro Paredes La Torre|arXiv (Cornell University)|Mar 17, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

本論文は自己完結型のEC設定においてオープンソースのビジョン-言語モデルLLaVA-v1.5-7BとQwen2.5-VL-7Bを評価し、BIM、PGD、CLIPベースのスペクトル攻撃に対する脆弱性を比較。LLaVAは攻撃に対して顕著に脆弱で、Qwenは全ての攻撃でロバスト性が高い。

ABSTRACT

We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.

研究の動機と目的

  • 現実的な自律購買シナリオにおけるオープンソースビジョン-ラージモデルの対敵ロバスト性を評価する。
  • 複数の勾配ベース攻撃下で2つのVLMファミリ(LLaVA-v1.5-7BとQwen2.5-VL-7B)を比較する。
  • VLM搭載エージェントの事前デプロイセキュリティ評価に向けた実用的な洞察を提供する。
  • 攻撃タイプとモデルアーキテクチャが実運用展開のロバスト性に及ぼす影響を強調する。

提案手法

  • Flaskストアフロント、推論サーバ、Seleniumベースのブラウザエージェントを組み合わせた自己完結型のeコマース・レッドチーミングフレームワークを構築する。
  • 3つの勾配ベース攻撃を適用する:BIM、PGD、CLIPベースのスペクトル攻撃。
  • 攻撃変動はL∞ノルムで予算とステップサイズを指定して境界付けされる;BIM/PGDはホワイトボックス、CLIPベース攻撃は転移性を高めるため代替CLIPエンコーダを使用。
  • CLIPスペクトル攻撃はDCT領域で撹乱し、複数のエンコーダにわたるCLIP埋め込みの幾何を標的とする。
  • 各条件で630試行における攻撃成功率(ASR)と正確購入率(CPR)で評価する。

実験結果

リサーチクエスチョン

  • RQ1現実的な展開シナリオにおける標準的なホワイトボックス勾配ベース攻撃に対するLLaVA-v1.5-7BとQwen2.5-VL-7Bのロバスト性はどう異なるか。
  • RQ2CLIPベースのスペクトル攻撃は単一モデルに対する直接的な勾配ベース攻撃よりモデル間で転移しやすいか。
  • RQ3自律購買設定におけるオープンソースVLMエージェントの事前デプロイセキュリティ評価における実務的含意は何か。

主な発見

方法LLaVA-v1.5-7B CPR (%)LLaVA-v1.5-7B ASR (%)Qwen2.5-VL-7B CPR (%)Qwen2.5-VL-7B ASR (%)
クリーン基準値90.2 ± 2.398.3 ± 1.0
BIM47.4 ± 3.952.693.5 ± 1.96.5
PGD46.2 ± 3.953.892.3 ± 2.17.7
CLIPスペクトル33.1 ± 3.766.984.5 ± 2.815.5
  • LLaVA-v1.5-7BはBIM(ASR 52.6%)、PGD(ASR 53.8%)、CLIPスペクトル攻撃(ASR 66.9%)に高い脆弱性を示す。
  • Qwen2.5-VL-7BはBIM 6.5%、PGD 7.7%、CLIPスペクトル攻撃 15.5%と大幅に堅牢。
  • CLIPベースのスペクトル攻撃は両モデルで最大のASRを達成し、特にLLaVAに対して特徴空間の撹乱が強力な攻撃ベクトルであることを示す。
  • 攻撃後のCPRはQwenでは清浄ベースに近く(例: BIMで93.5%)、LLaVAでは大幅に低下する(例: BIMで47.4%)。
  • オープンソースVLMファミリ間には顕著なロバスト性の差があり、アーキテクチャ間で均一ではないため事前デプロイ時の評価が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。