QUICK REVIEW

[論文レビュー] GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

Xingyu Zhu, Beier Zhu|arXiv (Cornell University)|Feb 27, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

GuardAlign は、推論時の安全性整合性をマルチモーダル大規模言語モデルに適用し、追加データ收集やパラメータのファインチューニングなしでより安全な出力を提供します。

ABSTRACT

Large vision-language models (LVLMs) have achieved remarkable progress in vision-language reasoning tasks, yet ensuring their safety remains a critical challenge. Recent input-side defenses detect unsafe images with CLIP and prepend safety prefixes to prompts, but they still suffer from inaccurate detection in complex scenes and unstable safety signals during decoding. To address these issues, we propose GuardAlign, a training-free defense framework that integrates two strategies. First, OT-enhanced safety detection leverages optimal transport to measure distribution distances between image patches and unsafe semantics, enabling accurate identification of malicious regions without additional computational cost. Second, cross-modal attentive calibration strengthens the influence of safety prefixes by adaptively reallocating attention across layers, ensuring that safety signals remain consistently activated throughout generation. Extensive evaluations on six representative MLLMs demonstrate that GuardAlign reduces unsafe response rates by up to 39% on SPA-VL, while preserving utility, achieving an improvement on VQAv2 from 78.51% to 79.21%.

研究の動機と目的

推論時に安全でより信頼できるマルチモーダル大規模言語モデル（MLLM）を実現する。
追加データ収集やファインチューニングを伴わずに、モデル出力を安全性制約に整合させるフレームワークを開発する。
視覚と言語モデルにおける推論時の安全性整合性の再現性のある方法論と評価を提供する。

提案手法

MLLM に対する推論時の安全性整合アプローチを導入する。
評価に用いるデータセット、データ処理、推論手順を説明する。
パラメータを更新せずに推論時に適用可能な安全プロンプトと整合戦略を概説する。
推論時の安全性向上を評価するための評価プロトコルを提示する。

実験結果

リサーチクエスチョン

RQ1パラメータを微調整せずに推論時の安全性整合がマルチモーダル LLM の安全性を改善できるか。
RQ2視覚と言語モデルの推論手順とデータセットは推論時の安全性整合の信頼性の高い評価を可能にするか。
RQ3推論時の安全性プロンプトと手法は、MLLM の不安全な反応をどれくらい低減できるか。

主な発見

このアプローチは追加データ収集やパラメータのファインチューニングを伴わずに推論時の安全性整合を実現できる。
論文は再現性を可能にする詳細なデータセット、データ処理、推論手順を提供している。
整合性があっても不安全な反応が生じ得ることを倫理的配慮として議論し認識している。
方法と実験および付録に記載された部分を用いて再現可能。
再現性に関する声明は結果を再現するための包括的な記述を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。