[論文レビュー] Debiasing Vision-Language Models via Biased Prompts
この論文は、テキスト埋め込みから偏った方向を削除する射影をキャリブレーションすることにより、視覚と言語モデルのゼロショットデバイアスを除去する方法を提案し、追加データやファインチューニングなしで識別タスクと生成タスクの堅牢性を向上させる。
Machine learning models have been shown to inherit biases from their training datasets. This can be particularly problematic for vision-language foundation models trained on uncurated datasets scraped from the internet. The biases can be amplified and propagated to downstream applications like zero-shot classifiers and text-to-image generative models. In this study, we propose a general approach for debiasing vision-language foundation models by projecting out biased directions in the text embedding. In particular, we show that debiasing only the text embedding with a calibrated projection matrix suffices to yield robust classifiers and fair generative models. The proposed closed-form solution enables easy integration into large-scale pipelines, and empirical results demonstrate that our approach effectively reduces social bias and spurious correlation in both discriminative and generative vision-language models without the need for additional data or training.
研究の動機と目的
- 未精製のインターネットデータで訓練された視覚と言語のファウンデーションモデルに存在する偏りを動機づけ、対処する。
- データ不要・訓練不要のデバイアス除去手法を提案する、テキスト埋め込み上で動作するキャリブレーション射影。
- テキスト埋め込みのみをデバイアス除去しても、堅牢なゼロショット分類器と公正なテキストから画像生成が可能であることを示す。
- 大規模パイプラインへの容易な組み込みを可能にする閉形式解を提供する。
提案手法
- バイアスを説明するプロンプト(例:「男性の写真」「女性の写真」)を用いてテキスト埋め込みの偏った方向を定義する。
- 埋め込みからそのような偏った方向を取り除く直交射影 P0 を計算する。
- 異なるバイアスを伴う同じクラスを記述する正例ペアを用いたプロンプト埋め込みのキャリブレーション損失を導入し、閉形式で解かれる(P* = P0(I + (lambda/|S|) sum (zi - zj)(zi - zj)^T)^{-1}))。
- キャリブレーション行列は、ZdiffとSVDを介して偽の方向を抑制するキャリブレーション項として解釈できることを示す(ZdiffZdiff^T = U Sigma^2 U^T)。
- 同じ最適解 z* をもたらす等化損失への同値性を確立する。
- 生成モデルへの適用を拡張し、プロンプト埋め込みの前処理として適用される普遍的なデバイアス除去マトリックスを学習する(全体を通して lambda = 500)。
![Figure 2: Improving Gender Diversity of Stable Diffusion. We fix the random seed of initial latent noise of Stable Diffusion [ 36 ] and generate the images with the training / testing prompt “a photo of a doctor / firefighter”. The results demonstrate that applying the calibration matrix to the prom](https://ar5iv.labs.arxiv.org/html/2302.00070/assets/x2.png)
実験結果
リサーチクエスチョン
- RQ1視覚と言語の埋め込みにおける偏った方向は、偏りを説明するプロンプトのみから純粋に特定できるか。
- RQ2データやラベルを必要とせず、キャリブレーションされた射影を介してテキスト埋め込みのデバイアス除去は、ゼロショット識別におけるグループ堅牢性を改善するか。
- RQ3同じデバイアス除去手法は、Stable Diffusion のような生成モデルにも、公正な画像生成という形で一般化できるか。
- RQ4訓練不要・データフリーで射影をキャリブレーションする、計算的に単純な閉形式解が存在するか。
- RQ5提案手法は、公平性指標(グループ堅牢性、MaxSkew)および出力の多様性の観点で、データ駆動のデバイアス除去手法とどう比較されるか。
主な発見
- 校正射影(Orth-Cali)は、CLIPベースのゼロショット分類器に対し、WaterbirdとCelebAの最悪グループの堅牢性を大幅に向上させる。
- キャリブレーション手法は、データやラベルを一切必要とせず、最先端のデータ駆動アダプターと同等またはそれ以上の公正性の向上を達成する。
- MaxSkew retrieval fairness on FairFace improves with debiasing across backbones and prompts.
- Stable Diffusion での生成では、性別・人種の差異を減らし、出力の多様性を高める(人間による評価は多様性の向上を支持)。
- キャリブレーション行列は未見のプロンプトや職業にも一般化し、テストプロンプトや未見カテゴリへの堅牢な転移を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。