Skip to main content
QUICK REVIEW

[論文レビュー] Visual Distraction Undermines Moral Reasoning in Vision-Language Models

Xinyi Yang, Chenheng Xu|arXiv (Cornell University)|Mar 17, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

要約: 本論文は、視覚入力が最先端の Vision-Language Models の道徳的意思決定を根本的に変えることを示し、Moral Dilemma Simulation ベンチマークと三模態評価プロトコルを用いて、テキストベースの整合性が束縛しないモダリティ固有のバイアスを明らかにする。

ABSTRACT

Moral reasoning is fundamental to safe Artificial Intelligence (AI), yet ensuring its consistency across modalities becomes critical as AI systems evolve from text-based assistants to embodied agents. Current safety techniques demonstrate success in textual contexts, but concerns remain about generalization to visual inputs. Existing moral evaluation benchmarks rely on textonly formats and lack systematic control over variables that influence moral decision-making. Here we show that visual inputs fundamentally alter moral decision-making in state-of-the-art (SOTA) Vision-Language Models (VLMs), bypassing text-based safety mechanisms. We introduce Moral Dilemma Simulation (MDS), a multimodal benchmark grounded in Moral Foundation Theory (MFT) that enables mechanistic analysis through orthogonal manipulation of visual and contextual variables. The evaluation reveals that the vision modality activates intuition-like pathways that override the more deliberate and safer reasoning patterns observed in text-only contexts. These findings expose critical fragilities where language-tuned safety filters fail to constrain visual processing, demonstrating the urgent need for multimodal safety alignment.

研究の動機と目的

  • AI の安全性に関する懸念を、テキストから多模態の embodiment エージェントへとモデルが移行する際に動機づける。
  • Moral Foundation Theory (MFT) に基づく制御可能なマルチモーダルベンチマークを開発し、モダリティ間の道徳判断を研究する。
  • ジレンマにおける概念変数と登場人物変数を直交的に操作して因果分析を可能にする。
  • 道徳的決定におけるテキスト内容、キャプション、 visuals の影響を分離する診断プロトコルを提供する。

提案手法

  • Moral Dilemma Simulation (MDS) を導入し、Moral Foundation Theory (MFT) に基づく生成型のマルチモーダルベンチマークとする。
  • 概念変数(個人的な力、意図、自己利益)と登場人物変数(人口統計、関係性)を直交的に操作して多様なジレンマを作成する。
  • ジレンマをテキスト記述と視覚場面として三模態評価プロトコル(Text、Caption、Image)でレンダリングする。
  • 各ジレンマについてテキスト記述と視覚場面を一貫性を保って整合させ、モダリティ間の整合性を確保する。
  • 信頼性の高い因果分析のために三つのサブセット(Quantity、Single Feature、Interaction)を含む約84kサンプルの大規模データセットを構築する。
(a) Utilitarianism reduction
(a) Utilitarianism reduction

実験結果

リサーチクエスチョン

  • RQ1Vision-Language Models による道徳的決定で視覚入力は功利主義的感受性にどのように影響するのか?
  • RQ2視覚入力はテキストのみの文脈と比べて義務論的制約を低下させ自己利益バイアスを促進するのか?
  • RQ3デモグラフィックおよび関係性の登場人物変数は視覚モダリティとどのように相互作用して道徳判断を形作るのか?
  • RQ4テキストベースの処理と視覚処理のモダリティ間ギャップの性質はマルチモーダル安全性整合性においてどう現れるのか?

主な発見

  • 視覚入力は功利主義的トレードオフの感度を平坦化し、画像モードで数値的賭けに対する感度を失わせる。
  • キャプションモードと画像モードは道徳的嗜好を Care ・ Loyalty 側へシフトさせ、いくつかのモデルでは Authority ・ Purity の重視が低下する。
  • デモグラフィック値の階層は画像モードでゼロ付近へ崩壊し、視覚処理が言語ベースの規範的区別を侵食することを示す。
  • モデル間でモダリティギャップはテキスト整合性に関係なく持続し、マルチモーダル環境における安全性リスクを浮き彫りにしている。
  • 一部のモデル(例:Gemini-2.5-flash)は部分的なモーダル間整合性を示し、視覚的な堅牢性を目指す整合戦略が有効になり得ることを示唆する。
  • 相互作用分析は画像モードがバイアス相互作用を強化し、視覚的手掛かりが離散属性よりも全体的・ピクセルレベルのバイアスを駆動することを示す。
(b) Self-interest prioritization
(b) Self-interest prioritization

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。