[論文レビュー] Disclosure and Mitigation of Gender Bias in LLMs
本論文は、明示的な性別表現を用いずに条件生成を用いた間接的なプロービング枠組みを提案し、複数のモデルに対して3つの緩和戦略(ハイパーパラメータ調整、指示ガイド、デバイアスチューニング)を評価する。
Large Language Models (LLMs) can generate biased responses. Yet previous direct probing techniques contain either gender mentions or predefined gender stereotypes, which are challenging to comprehensively collect. Hence, we propose an indirect probing framework based on conditional generation. This approach aims to induce LLMs to disclose their gender bias even without explicit gender or stereotype mentions. We explore three distinct strategies to disclose explicit and implicit gender bias in LLMs. Our experiments demonstrate that all tested LLMs exhibit explicit and/or implicit gender bias, even when gender stereotypes are not present in the inputs. In addition, an increased model size or model alignment amplifies bias in most cases. Furthermore, we investigate three methods to mitigate bias in LLMs via Hyperparameter Tuning, Instruction Guiding, and Debias Tuning. Remarkably, these methods prove effective even in the absence of explicit genders or stereotypes.
研究の動機と目的
- 明示的なステレオタイプを超えたLLM出力の性別バイアスを発見する必要性を喚起する。
- LLMsが明示的な性別語を用いずに性別バイアスを露呈させるように、間接的なプロービング枠組みを開発する。
- 明示的および暗黙的バイアスを定量化する指標を定義し、複数のLLM間でバイアスをベンチマークする。
- 3つのデバイアランス戦略を評価・比較し、最も効果的な方法を特定する。
提案手法
- 明示的な性別表現を用いずに性別バイアスを誘発する条件生成プロービングを導入する。
- 3つのプロービング戦略:自然由来の入力、LLM生成入力、ステレオタイプを含むテンプレートベースの入力。
- 明示的バイアス指標 GAS(Gender Attribute Score)と暗黙的バイアス指標 GLD(Gender Logits Difference)および ADD(Attribute Distribution Distance)を定義する。
- 各戦略の下でバイアスを評価するため、モデルファミリ(LLaMA2、Vicuna、Falcon、OPT)にわたって10のLLMをプローブする。
- 3つの緩和手法を評価する:ハイパーパラメータ調整(temperature、Top-p、Top-K)、指示ガイディング、デバイアスチューニング。
- デバイアスチューニングはQLoRAベースのアプローチを用い、結合損失 L = Ld + Lg + Ll により性別分布を揃え、バイアスを低減する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 明示的なステレオタイプを要求しない場合、異なるプロービング戦略下でLLMはどのように挙動するか?
- RQ2RQ2: 中立的なプローブは、テンプレートベースのプロンプトよりバイアス開示において安定かつ適切か?
- RQ3RQ3: より大きいモデルやアラインメント済みモデルはより多くのバイアスを示すか、それとも減るか、また設定間で緩和戦略はどう機能するか。
主な発見
- 全ての10個のテスト対象LLMは、少なくともあるプロービング戦略の下で明示的または暗黙的な性別バイアスを示した。
- テンプレートベースのプロンプトは最も強いバイアス信号を生み出し、対して中立プローブはモデルと入力を跨いでより安定してバイアスを露呈させる。
- 大規模またはアラインメント済みのモデルは、明示的バイアスをより示す傾向がある一方で、条件によっては暗黙的バイアス(GLD/ADD)が低減する場合がある。
- 指示ガイディングは多くのケースで明示的・暗黙的バイアスの双方を低減し、特に自然由来の入力で顕著である。
- デバイアスチューニングはデータセットとモデル変種を超えて常に最も強力なバイアス緩和を達成し、ハイパーパラメータ調整および指示ガイディングを上回る。
- 入力に明示的な性別やステレオタイプが含まれていなくても、デバイアスチューニングは依然として効果的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。