[論文レビュー] Reducing Sentiment Bias in Language Models via Counterfactual Evaluation
本稿では、潜在表現における反事後的評価および正則化を用いて、大規模言語モデルにおける感情バイアスを低減するフレームワークを提案する。埋め込みと感情予測から得られる正則化を適用することで、感情バイアスの指標である個別公平性スコアを著しく低減するとともに、自己エントロピーと高い意味的類似度を維持し、自動評価および人的評価の両面で有効性を示している。
Advances in language modeling architectures and the availability of large text corpora have driven progress in automatic text generation. While this results in models capable of generating coherent texts, it also prompts models to internalize social biases present in the training corpus. This paper aims to quantify and reduce a particular type of bias exhibited by language models: bias in the sentiment of generated text. Given a conditioning context (e.g., a writing prompt) and a language model, we analyze if (and how) the sentiment of the generated text is affected by changes in values of sensitive attributes (e.g., country names, occupations, genders) in the conditioning context using a form of counterfactual evaluation. We quantify sentiment bias by adopting individual and group fairness metrics from the fair machine learning literature, and demonstrate that large-scale models trained on two different corpora (news articles, and Wikipedia) exhibit considerable levels of bias. We then propose embedding and sentiment prediction-derived regularization on the language model's latent representations. The regularizations improve fairness metrics while retaining comparable levels of perplexity and semantic similarity.
研究の動機と目的
- 職業、国、名前などの感受性のある属性を対象として、反事後的評価を用いて言語モデルにおける感情バイアスを定量化すること。
- 生成テキストにおける感情バイアスを測定するための新しい公平性指標(個別公平性およびグループ公平性)を、ワサースタイン距離に基づいて開発すること。
- 指定された公平性制約下で、テキスト生成における感情バイアスを低減する汎用的なフレームワークを提案すること。
- 潜在表現における正則化技術の有効性を、公平性の向上と意味的品質・自己エントロピーの維持という観点から評価すること。
- 自動指標と人的アノテーション(感情、意味的類似度、公平性)の相関を検証すること。
提案手法
- 著者らは、条件付けコンテキストにおける感受性のある属性(例:職業、国)を体系的に変化させ、生成されたテキストにおける感情スコアの変化を測定することで、反事後的評価を実施する。
- 個別公平性は、異なる属性値間における感情分布の間のワサースタイン距離として定義され、感情出力のバイアスを捉える。
- グループ公平性は、すべての属性値における個別公平性の平均として測定され、バイアスのグローバル指標を提供する。
- 2つの正則化手法を導入する:(1) 潜在表現を制約する埋め込み正則化、(2) BERTベースの感情分類器を用いた感情予測から得られる正則化。
- 正則化項は、公平性と生成品質のバランスをとるためにハイパーパrameter λ を用いて言語モデルの学習目的に追加される。
- フレームワークは、自動指標(自己エントロピー、意味的類似度)と人的評価を用いて、WMT-19 および WikiText-103 の2つのデータセットで評価される。
実験結果
リサーチクエスチョン
- RQ1プロンプトに職業や国といった感受性のある属性を変化させた場合、大規模言語モデルは体系的な感情バイアスを示すか?
- RQ2ワサースタイン距離に基づく個別およびグループ公平性指標は、生成テキストにおける感情バイアスを効果的に定量化できるか?
- RQ3潜在表現における正則化は、自己エントロピーまたは意味的類似度の劣化を伴わずに感情バイアスを低減できるか?
- RQ4自動公平性指標は、人的アノテーションによる感情および関連性評価とどの程度相関するか?
- RQ5バイアス低減において、公平性、自己エントロピー、意味的類似度の間にはどのようなトレードオフが存在するか?
主な発見
- ベースラインの GPT-2 モデルは顕著な感情バイアスを示しており、同じプロンプト文脈において「ベーカー」に対してはより肯定的、そして「会計士」に対してはより否定的な感情を生成する。
- 提案された感情正則化手法により、「デザイナー」と「会計士」のプロンプトペアにおいて、個別公平性スコアがベースライン(0.333)から83%低減され、0.056にまで低下した。
- 「リビア」と「アイスランド」のプロンプトペアにおいて、個別公平性スコアはベースラインの0.291から、感情正則化モデルでは0.155に低下し、バイアス低減が確認された。
- 感情正則化手法は埋め込み正則化よりも個別公平性の低減に効果的であり、平均で70%の公平性スコア低減が達成された。
- 感情および意味的類似度に関する自動指標は、人的アノテーションと強い相関を示した(感情:Spearmanのρ = 0.75–0.79、類似度:0.63–0.72)。
- 両方の正則化手法とも、ベースラインと同等の自己エントロピー(PPL ≈ 17.6–18.5)と意味的類似度を維持しており、生成品質への劣化は最小限に抑えられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。