QUICK REVIEW

[論文レビュー] Measuring Bias in Contextualized Word Representations

Keita Kurita, Nidhi Vyas|arXiv (Cornell University)|Jun 18, 2019

Hate Speech and Cyberbullying Detection参考文献 25被引用数 19

ひとこと要約

この論文では、特定の属性（例：'プログラマー'）に対して、マスクされた言語モデルのヘッドを照会して、ジェンダー化されたターゲット（例：'彼' 対 '彼女'）の対数確率比を計算することで、BERTにおけるバイアスをテンプレートベースの方法で測定する手法を提案する。この手法は、従来のコサインベースの手法よりも人間のバイアスと一貫性が高く、職業的および特性関連の属性において強い男性性への関連性を明らかにし、高給職の88.5％が '彼' に対してより強い関連性を示している。

ABSTRACT

Contextual word embeddings such as BERT have achieved state of the art performance in numerous NLP tasks. Since they are optimized to capture the statistical properties of training data, they tend to pick up on and amplify social stereotypes present in the data as well. In this study, we (1)~propose a template-based method to quantify bias in BERT; (2)~show that this method obtains more consistent results in capturing social biases than the traditional cosine based method; and (3)~conduct a case study, evaluating gender bias in a downstream task of Gender Pronoun Resolution. Although our case study focuses on gender bias, the proposed technique is generalizable to unveiling other biases, including in multiclass settings, such as racial and religious biases.

研究の動機と目的

従来のコサインベースの手法が信頼性を持って捉えきれない、コンテキストに依存する単語埋め込み（例：BERT）におけるバイアスをより一貫性があり信頼性の高い方法で測定するための手法を開発すること。
BERT内の内因的バイアス（特に性別バイアス）が、性別的代名詞の解決などの下流タスクにどのように現れるかを調査すること。
実世界のデータセットを用いて、職業的タイトル、性格的特徴、および職務スキルにおけるBERTの性別バイアスの程度を定量化すること。
提案手法で測定されたバイアスが、下流タスク（例：性別的代名詞の解決）の性能と強く相関することを示し、実世界のNLP応用におけるリスクを浮き彫りにすること。

提案手法

‘[MASK] は [ATTRIBUTE] である’のような簡単なテンプレート文を構築し、[MASK] をターゲット代名詞（例：'彼' や '彼女'）に置き換えて、BERTのマスクされた言語モデル予測を照会する。
属性が与えられた状況でのターゲット語の条件付き確率 $ p_{tgt} = P([MASK] = \text{target} \mid \text{sentence}) $ を計算する。
モデルがターゲットに偏っていることを補正するため、両方のターゲットと属性がマスクされた文における事前確率 $ p_{prior} = P([MASK] = \text{target} \mid \text{sentence with both targets and attribute masked}) $ を計算する。
相対的な関連強度を測るため、対数確率バイアススコア $ \log{\frac{p_{tgt}}{p_{prior}}} $ を計算する。
この正規化されたスコアを用いて、2つのターゲット（例：'彼' 対 '彼女'）間の関連強度を比較し、最終的なバイアススコアとして差分を計算する。
一貫したテンプレートを用いて、複数のデータセット（従業員給与、ポジティブ/ネガティブ特徴、O*NET（スキル））にこの手法を適用する。

実験結果

リサーチクエスチョン

RQ1テンプレートベースでマスクされた言語モデルを用いたアプローチは、従来のコサインベースの手法と比較して、BERTにおけるバイアスをより一貫性があり信頼性の高い方法で測定できるか？
RQ2BERTは、職業的タイトル、性格的特徴、および職務スキルに関して、どの程度性別バイアスを示しているか？
RQ3提案手法で測定された内因的バイアスは、性別的代名詞の解決のような下流タスクでの性能にどの程度相関しているか？
RQ4提案手法は、マルチクラスまたはステレオタイプ化された属性設定において、従来の手法よりも洗練された、あるいはより細分化されたバイアスパターンを明らかにできるか？

主な発見

提案された対数確率バイアススコア手法は、従来のWEAT／コサインベースの手法よりも、特にコンテキストに依存する埋め込みにおいて、人間がアノテートしたバイアスとより高い一貫性を示した。
モンゴメリー郡従業員給与データセットの上位1,000件の高給職のうち88.5％が、'彼' に対して '彼女' よりも強い関連性を示した。
ポジティブな性格的特徴の80.0％およびネガティブな特徴の78.9％が、'彼' に対して '彼女' よりも強く関連しており、広範な性別バイアスが存在することが示された。
O*NETの技術的スキルの84.0％が、'彼' に対して '彼女' よりも強い関連性を示しており、バイアスが技術的スキルに対しても広がっていることが示唆された。
提案手法で測定された内因的バイアスは、性別的代名詞の解決タスクにおける性能低下と強く有意な相関を示しており、実世界の下流影響を示している。
この手法は、職業的評価、性格的特徴、スキルなど多様な属性タイプにおいてバイアスを効果的に特定でき、二元的性別ステレオタイプを越えた一般化可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。