QUICK REVIEW

[論文レビュー] MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Eung Ch. Park, Wesley Hanwen Deng|arXiv (Cornell University)|Feb 3, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

MM–Scale は 32k+ のマルチモーダル道徳データセットを通じてスカラー（1–5）評価とモダリティ grounding を提供し、Vision-Language Models を人間の道徳的嗜好に整合させるリストワイズ最適化を可能にする。スカラー・リストワイズ監視は、二値信号よりランキング忠実度と安全性の較正を改善することを示す。

ABSTRACT

Vision-Language Models (VLMs) continue to struggle to make morally salient judgments in multimodal and socially ambiguous contexts. Prior works typically rely on binary or pairwise supervision, which often fail to capture the continuous and pluralistic nature of human moral reasoning. We present MM-SCALE (Multimodal Moral Scale), a large-scale dataset for aligning VLMs with human moral preferences through 5-point scalar ratings and explicit modality grounding. Each image-scenario pair is annotated with moral acceptability scores and grounded reasoning labels by humans using an interface we tailored for data collection, enabling listwise preference optimization over ranked scenario sets. By moving from discrete to scalar supervision, our framework provides richer alignment signals and finer calibration of multimodal moral reasoning. Experiments show that VLMs fine-tuned on MM-SCALE achieve higher ranking fidelity and more stable safety calibration than those trained with binary signals.

研究の動機と目的

Binary judgments を超えてスカラー（1–5）評価へ移行することで、道徳推論信号のギャップに対処する。
Explicit なモダリティ grounding（テキスト、画像、あるいはその両方）を提供し、道徳判断に対するマルチモーダルの影響を捉える。
複雑な場面で人間の道徳嗜好と VLMs を整合させるためのリストワイズ・プリファレンス最適化を可能にする。
インタラクティブなインターフェース（MORALE）とモデルループのフィードバックを用いたデータ収集の品質とデータセットの覆盖を改善する。
スカラー・リストワイズ監視は、二値信号よりランキング忠実度と較正を向上させることを示す。

提案手法

Target image を伴う 32,212 件のマルチモーダル道徳シナリオのデータセット MM–Scale を作成する。
各シナリオを 1–5 のスカラー道徳判断と grounding モダリティ・ラベル（テキスト、画像、またはその両方）で注釈する。
disagreement に基づく注釈とモデルループ拡張のための対話型ウェブ・インターフェース MORALE を用いて、多様なシナリオを収集する。
同じ画像に結びつくシナリオ群に対して人間のランキングされた道徳嗜好を再現するため、ListMLE によるリストワイズ最適化を適用する。
スカラー回帰ヘッドと任意の補助損失（スコア忠実度のための MSE、モダリティ予測）を持つ複数の事前学習VLMバックボーンを、教師ありのエンドツーエンド方式で微調整する。
ランキングおよび安全性較正指標において、スカラー・リストワイズ監視を二値のプリファレンス・二値分類のベースラインと比較する。

Figure 2 : Overview of our data annotation pipeline. (a) Situations Sourcing : We source daily norm scenarios that can add details to an action from the Commonsene Normbank [ 11 ] dataset. (b) Multimodal Moral Context Generation : A commonsense-based target setting (e.g., “Child crossing a street”)

実験結果

リサーチクエスチョン

RQ1スカラー（5点）道徳判断を、マルチモーダル文脈に grounding することで、二値判断より人間の規範的ニュアンスをよりよく捉えられるのか。
RQ2Explicit なモダリティ grounding（テキスト、画像、または両方）が、VLM の出力と人間の道徳嗜好との整合性を改善するのか。
RQ3完全なシナリオランキングに対するリストワイズ最適化は、対バイナリ監視より道徳的整合性に有効か。
RQ4データセットのサイズ、リストの長さ、セーフティ閾値が、VLM のランキング忠実度と較正にどのように影響するのか。
RQ5MM–Scale の注釈とモデル出力は、モダリティ間で人間の合意と整合するのか。

主な発見

スカラー・リストワイズ監視は最も強いランキング忠実度を生み出し、評価されたモデルで高い NDCG@5 および MRR を達成。
二値化監視（BPO/BCE）は、スカラー・リストワイズ手法と比べてランキングと較正が弱い一方、二値 Unsafe 率を時に低下させることもある。
モダリティ grounding ラベルは信頼性が高く、視覚的文脈が道徳判断をどのように変化させるかを予測可能で、テキストのみの基準から画像を見た後には人間判断が 68% ずれている。
MM–Scale モデルは、二値訓練のベースラインより安全性較正（AUC–Safety）と推定値の安定性が改善。
Disagreement-driven 注釈（MORALE）とモデルループ拡張はデータセットの覆盖を増やし、道徳判断のモダリティ別の有意なシフト（テキスト対画像対両方）を明らかにする。
インタ-ア- annotator の信頼性は高く、スカラースコアとモダリティラベルの Krippendorff のα は約 0.7。
広範なアブレーションにより、ランキング向上の飽和近くのリストサイズは約 4 であり、データ使用量の 50% で大半の性能を保持することから、データ効率が示される。

Figure 3 : Comparison of alignment metrics between synthetic images and caption-matched real images from Visual Genome. Differences ( $\Delta\leq 0.02$ ) are trivial across NDCG@5, Unsafe Rate, and Kendall’s $\tau$ metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。