QUICK REVIEW

[論文レビュー] Directional Embedding Smoothing for Robust Vision Language Models

Ye Wang, Jing Liu|arXiv (Cornell University)|Mar 16, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

要約: 本論文は RESTA を視覚－言語モデルに拡張し、方向性埋め込みノイズが多模挙動の Jailbreaking 攻撃に対する防御を有意に改善し、安全性と有用性のトレードオフが良好になることを LLaVA および Gemma モデルで示す。

ABSTRACT

The safety and reliability of vision-language models (VLMs) are a crucial part of deploying trustworthy agentic AI systems. However, VLMs remain vulnerable to jailbreaking attacks that undermine their safety alignment to yield harmful outputs. In this work, we extend the Randomized Embedding Smoothing and Token Aggregation (RESTA) defense to VLMs and evaluate its performance against the JailBreakV-28K benchmark of multi-modal jailbreaking attacks. We find that RESTA is effective in reducing attack success rate over this diverse corpus of attacks, in particular, when employing directional embedding noise, where the injected noise is aligned with the original token embedding vectors. Our results demonstrate that RESTA can contribute to securing VLMs within agentic systems, as a lightweight, inference-time defense layer of an overall security framework.

研究の動機と目的

エージェント型 AI システムにおける視覚－言語モデルの安全性と信頼性のニーズを動機づける。
VLMs の Jailbreaking 攻撃を緩和するために RESTA 防御を適用・評価する。
複数の VLM にわたる JailBreakV-28K および ScienceQA ベンチマークを用いてセキュリティと有用性のトレードオフを評価する。
防御効果に対する埋め込みノイズの方向性の影響を特定する。

提案手法

autoregressive 生成中のユーザーコンテンツ埋め込みを撹乱して VLMs に RESTA を拡張する。
2 種類の撹乱を比較する：等方ガウスノイズと埋め込み方向と整合した hard な方向性ノイズ。
各トークンにつき k=10 の撹乱を用い、多数決で次のトークンを選択する。
JailBreakV-28K による攻撃成功率で防御を評価し、ScienceQA で有用性を評価する。
LLaVA-1.5-7B および Gemma-3-4B モデルの結果を提供する。

実験結果

リサーチクエスチョン

RQ1方向性（hard）埋め込みノイズは等方ノイズと比べて RESTA の VLMs に対する有効性を改善するか。
RQ2JailBreakV-28K 攻撃下で RESTA を Vision-Language Models に適用した場合のセキュリティと有用性のトレードオフは。
RQ3LLaVA-1.5-7B と Gemma-3-4B は RESTA の撹乱に対してどのように異なる反応を示すか。
RQ4埋め込みの方向性は意味内容を保ちつつ jailbreak 成功を抑制する上で鍵となる要因か。
RQ5RESTA をバックアップする VLMs に対する適応攻撃の制約と今後の方向性は。

主な発見

Noise σ	SciQA (%) (Hard)	ASR (%) (Hard)	SciQA (%) (Normal)	ASR (%) (Normal)
0	64.07	50.13	64.07	50.13
0.001	64.21	49.91	64.04	50.20
0.002	63.85	49.26	64.02	50.10
0.003	63.55	47.08	—	—
0.004	61.97	37.64	—	—
0.005	61.42	25.93	63.90	49.08
0.006	58.45	20.79	—	—
0.007	55.93	18.17	—	—
0.008	51.64	15.81	—	—
0.009	47.72	12.67	—	—
0.010	45.37	10.19	60.50	46.08
0.011	42.21	7.93	—	—
0.012	39.59	6.40	—	—
0.013	36.93	5.30	—	—
0.014	34.99	4.46	—	—
0.015	32.00	3.74	55.41	42.91
0.020	23.46	2.37	39.09	42.75
0.025	19.00	2.14	14.97	32.60
0.030	16.20	2.03	9.50	23.62
0.040	11.74	1.84	15.02	5.04
0.050	10.73	1.93	23.08	5.20

hard な方向性ノイズは等方ノイズよりも両方の VLM においてより良いセキュリティ-有用性トレードオフを与える。
LLaVA-1.5-7B: jailbreak ASR が 50.13% から 25.93% に減少し、ScienceQA の精度損失は最小限（64.07% から 61.42%）にとどまる。
Gemma-3-4B: sigma によって ASR と SciQA は変動し、高ノイズで顕著なセキュリティ向上を示す（例：sigma が 0.5–1.5 程度で ASR が大幅に低下、SciQA の性能も非自明なレベルを維持）。
等方ノイズは一般にトレードオフが劣り、平凡なベースラインと同等かそれ以上に悪い。
RESTA は VLMs のセキュリティフレームワーク内で軽量な推論時防御層として機能し得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。