[論文レビュー] Auditing Disability Representation in Vision-Language Models
この論文は、9つの障害カテゴリに跨る15の視覚言語モデルを対象に、対をなすニュートラル・プロンプトと障害文脈化プロンプトのフレームワークを導入し、障害文脈が解釈忠実度を低下させることを示しつつ、プロンプトと嗜好微調整によって緩和可能であることを示しています。
Vision-language models (VLMs) are increasingly deployed in socially sensitive applications, yet their behavior with respect to disability remains underexplored. We study disability aware descriptions for person centric images, where models often transition from evidence grounded factual description to interpretation shift including introduction of unsupported inferences beyond observable visual evidence. To systematically analyze this phenomenon, we introduce a benchmark based on paired Neutral Prompts (NP) and Disability-Contextualised Prompts (DP) and evaluate 15 state-of-the-art open- and closed-source VLMs under a zero-shot setting across 9 disability categories. Our evaluation framework treats interpretive fidelity as core objective and combines standard text-based metrics capturing affective degradation through shifts in sentiment, social regard and response length with an LLM-as-judge protocol, validated by annotators with lived experience of disability. We find that introducing disability context consistently degrades interpretive fidelity, inducing interpretation shifts characterised by speculative inference, narrative elaboration, affective degradation and deficit oriented framing. These effects are further amplified along race and gender dimension. Finally, we demonstrate targeted prompting and preference fine-tuning effectively improves interpretive fidelity and reduces substantially interpretation shifts.
研究の動機と目的
- 障害権利とジャーナリズム基準に基づく障害表現のVLM評価を正規化する動機づけ。
- 解釈忠実度を測定する専門家検証済みのゼロショット対プロンプトフレームワークを開発する。
- 9つの障害カテゴリに跨る、開放ソース・クローズドソース含む15の多様なVLMをベンチマークする。
- モデルの有用性を維持しつつ、解釈的シフトを低減する実用的な緩和戦略を提供する。
提案手法
- 障害バイアスを、同一画像に対するNPとDPの応答の差分として定義する。
- PAIRS合成画像データセットを用いて、9つの障害カテゴリに跨る制御されたNPとDPの対ペアプロンプトを提供する。
- LLMをジャッジとして用い、高次のバイアス(推測的推論、ステレオタイプ、フレーミング等)を評価する。
- VADER感情、 Regard、表現度(Verbosity)指標で言語的劣化を定量化する。
- 統計検定(ANOVA、p<0.05)とアノテータ間/LMM同意性を用いて発見を検証する。

実験結果
リサーチクエスチョン
- RQ1障害文脈化プロンプトはニュートラルなプロンプトと比べてVLM出力に解釈のシフトを生じさせるか。
- RQ2シフトは障害カテゴリごとにどのように異なり、人種・性別と交差するか。
- RQ3障害文脈下で観察される主な偏りの形態(解釈、ステレオタイプ、フレーミング)は何か。
- RQ4プロンプティング戦略と嗜好ベースの微調整は出力品質を損なうことなくこれらの偏りを緩和できるか。
主な発見
- 障害文脈は一貫して解釈忠実度を低下させ、推測的推論、物語的膨張、感情的シフトが増加する。
- Verbosity(表現度)とInterpret(解釈)次元で最大の劣化を示し、モデルによっては70〜90%を超えるケースもある。
- 偏りの影響は人種・性別軸で拡大し、白人男性で解釈的シフトがより強く、黒人女性では説明がより制約される。
- ターゲットを絞ったプロンプティングによる緩和は大多数のモデルで偏りを大幅に低減し、特に解釈とフレーミングで効果的である。
- 直接的嗜好最適化(DPO)はプロンプティングだけよりも大きく、安定した偏り低減をもたらし、解釈忠実度を著しく改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。