[論文レビュー] Assessing Social and Intersectional Biases in Contextualized Word Representations
本論文は、埋め込みの関連テストを文脈 word representations に拡張し、人種と交差的バイアステストを導入することにより、最先端の文脈 word モデル(例: BERT, GPT-2)における社会的および交差的バイアスを評価する。
Social bias in machine learning has drawn significant attention, with work ranging from demonstrations of bias in a multitude of applications, curating definitions of fairness for different contexts, to developing algorithms to mitigate bias. In natural language processing, gender bias has been shown to exist in context-free word embeddings. Recently, contextual word representations have outperformed word embeddings in several downstream NLP tasks. These word representations are conditioned on their context within a sentence, and can also be used to encode the entire sentence. In this paper, we analyze the extent to which state-of-the-art models for contextual word representations, such as BERT and GPT-2, encode biases with respect to gender, race, and intersectional identities. Towards this, we propose assessing bias at the contextual word level. This novel approach captures the contextual effects of bias missing in context-free word embeddings, yet avoids confounding effects that underestimate bias at the sentence encoding level. We demonstrate evidence of bias at the corpus level, find varying evidence of bias in embedding association tests, show in particular that racial bias is strongly encoded in contextual word models, and observe that bias effects for intersectional minorities are exacerbated beyond their constituent minority identities. Further, evaluating bias effects at the contextual word level captures biases that are not captured at the sentence level, confirming the need for our novel approach.
研究の動機と目的
- 文脈的語彙表現が、学習コーパスに存在する社会的バイアスを符号化していることを示す。
- 文のエンコーディングから文脈語彙表現へのバイアス分析を拡張し、文脈依存のバイアスを捉える。
- 最新モデル(複数のデータセットにわたる)で、性別、人種、交差的アイデンティティを評価する。
- 人種と交差的アイデンティティを対象とする新しい埋め込み関連テストを導入し、文レベルのテストと結果を比較する。
提案手法
- WEAT/SEAT フレームワークを、 pooled 文 encodings の代わりにトークンレベルの文脈語彙埋め込みを用いることで、文脈語彙表現に適用する。
- 概念と属性の埋め込み間のコサイン類似度を用いて関連統計量を算出し、WEAT/SEAT にあるような置換による有意性検定(p値)を行う。
- 人種と交差的アイデンティティのバイアスを表す + 接頭辞付きの新しいテストを導入。名前ベースの概念と属性対(例: pleasant/unpleasant, career/family)を用いる。
- 複数のモデル(CBoW/Glove, ELMo, BERT, GPT, GPT-2)および単語埋め込み・文・文脈語彙表現のそれぞれでバイアス信号を比較し、どこにバイアスが現れるかを評価する。
- 有意なバイアステストの比率を報告するため結果を集約し、コーパスのバイアスが文脈表現へどのように伝播するかを検討する。
実験結果
リサーチクエスチョン
- RQ1文エンコーダが示す以上に、文脈語彙表現は性別、人種、交差的バイアスを符号化しているか?
- RQ2モデル間(BERT、GPT-2、GPT、ELMo)および単語埋め込み・文・文脈語彙表現間で、バイアスはどのように異なるか?
- RQ3文脈語彙モデルでは人種バイアスが性別バイアスより強く符号化されているか?
- RQ4文脈語彙表現で評価した場合、交差的アイデンティティ(例: アフリカ系アメリカ人女性)は、それを構成する個別のマイノリティアイデンティティよりも強いバイアスを示すか?
- RQ5文脈語彙埋め込みを用いた新しい人種・交差的テストは、文レベルのテストでは検出できないバイアスを露呈できるか?
主な発見
- 人種バイアスは文脈語彙モデルに強く符号化されており、しばしば性別バイアスよりも強い。
- 文脈語彙表現は、文のエンコードでは常に検出されないバイアスを明らかにする。 significant tests のうち約37.6% が両方のエンコードでバイアスを示し、36.6% は文脈語彙表現(c-word)エンコードでのみ検出された。
- BERT (bbc) は人種および交差的テストで高いバイアスを示す。全体的に大きなモデルが検出されたバイアスを必ずしも増やすわけではなく、有意な関連性が少ないこともある。
- バイアスはコーパスレベルからエンコーディングレベルへ伝播し、コーパスの性別の偏りが文脈表現におけるステレオタイプ寄りの関連を高くすることと相関する。
- 交差的バイアス(アフリカ系アメリカ人女性)は、いずれかの構成マイノリティバイアスより大きく、交差テストでは人種効果が性別効果を優勢にすることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。