Skip to main content
QUICK REVIEW

[論文レビュー] Assessing Social and Intersectional Biases in Contextualized Word Representations

Yi Chern Tan, L. Elisa Celis|arXiv (Cornell University)|Nov 4, 2019
Text Readability and Simplification被引用数 68
ひとこと要約

本論文は、文脈ワード表現(例:BERT、GPT-2)における文脈ワードレベルのバイアスを分析し、性別、人種、交差的バイアスが文レベルの評価と異なることを示す。さらに、交差的バイアスとコーパスレベルのバイアス伝播を測定する新しいテストを導入する。

ABSTRACT

Social bias in machine learning has drawn significant attention, with work ranging from demonstrations of bias in a multitude of applications, curating definitions of fairness for different contexts, to developing algorithms to mitigate bias. In natural language processing, gender bias has been shown to exist in context-free word embeddings. Recently, contextual word representations have outperformed word embeddings in several downstream NLP tasks. These word representations are conditioned on their context within a sentence, and can also be used to encode the entire sentence. In this paper, we analyze the extent to which state-of-the-art models for contextual word representations, such as BERT and GPT-2, encode biases with respect to gender, race, and intersectional identities. Towards this, we propose assessing bias at the contextual word level. This novel approach captures the contextual effects of bias missing in context-free word embeddings, yet avoids confounding effects that underestimate bias at the sentence encoding level. We demonstrate evidence of bias at the corpus level, find varying evidence of bias in embedding association tests, show in particular that racial bias is strongly encoded in contextual word models, and observe that bias effects for intersectional minorities are exacerbated beyond their constituent minority identities. Further, evaluating bias effects at the contextual word level captures biases that are not captured at the sentence level, confirming the need for our novel approach.

研究の動機と目的

  • 最先端の文脈ワード表現における社会的および交差的バイアスを測定する。
  • 混乱を避けるため、文 encoding から文脈ワードレベルへバイアス評価を拡張する。
  • 事前学習データから文脈表現へのコーパスレベルのバイアス伝播を評価する。
  • モデルとコーパス間でバイアスの有病率を比較し、人種関連のバイアスを強調する。

提案手法

  • トークンの文脈語嵌入(c-word)を使用してWEAT/SEATバイアステストを文脈 word 表現に適応させる。
  • WEAT/SEAT(式1–3)および効果量d(式4)に従ってテスト統計量s(X,Y,A,B)と置換ベースのp値を計算する。
  • 名前と職業語を用いてバイアスを探る新しい+ジェンダー/人種/交差テストを導入する(例:+C11, +C12, +C13, +I5)。
  • データセットの代名詞出現回数と、ステレオタイプ的に性別付けされた職業語との共起を数え、コーパスレベルの性別バイアスを明らかにする(M/F/they、Table 1)。
  • 複数のモデル(CBoW、ELMo、BERT、GPT、GPT-2)を有意水準p = 0.01で評価し、c-wordと文 encodingsを比較する。
  • 文脈語表現と文エンコーディングでバイアスの現れ方が異なる点について議論する。

実験結果

リサーチクエスチョン

  • RQ1最先端の文脈ワードモデルは性別・人種・交差的バイアスをエンコードしているか?
  • RQ2文脈ワード表現のバイアスは文 encoding レベルで検出されるバイアスとどのように比較されるか?
  • RQ3コーパスレベルの性別および人種バイアスは文脈ワード埋め込みへ伝播するか?
  • RQ4交差的アイデンティティはバイアスされており、単一のマイノリティアイデンティティ(人種または性別)より大きいか?

主な発見

  • データセットは性別の不均衡を示し、男性代名詞の出現が多く、男性関連職業語との共起がプロステレオタイプである。
  • 人種バイアスは文脈ワードモデルに強くエンコードされており、しばしば性別バイアスより顕著である。
  • 文のエンコードを超えて、文脈ワードレベル(c-word)でバイアスが検出可能で、多くのテストはc-wordエンコーディングのみ有意を示す。
  • 大きなモデルほど有意なバイアス結びつきが少なくなる傾向だが、人種関連のバイアスはモデル間で持続する。
  • 交差的バイアス(African American female)は単一マイノリティアイデンティティより大きく、人種効果は性別効果を上回ることが多い。
  • モデル間で、文脈ワードテストは文レベルのテストが見逃すバイアスを明らかにし、二重エンコード評価の必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。