QUICK REVIEW

[論文レビュー] Gender Bias in Neural Natural Language Processing

Kaiji Lu, Piotr Mardziel|arXiv (Cornell University)|Jul 31, 2018

Topic Modeling参考文献 17被引用数 73

ひとこと要約

論文はニューラルNLPの一般的なバイアス指標を定義し、コアファレンスと言語モデリングにおける性別バイアスを顕著に示し、バイアスを抑制しつつ精度を維持する counterfactual data augmentation (CDA) を導入して、いくつかの設定で埋め込みデバイアス手法を上回る。

ABSTRACT

We examine whether neural natural language processing (NLP) systems reflect historical biases in training data. We define a general benchmark to quantify gender bias in a variety of neural NLP tasks. Our empirical evaluation with state-of-the-art neural coreference resolution and textbook RNN-based language models trained on benchmark datasets finds significant gender bias in how models view occupations. We then mitigate bias with CDA: a generic methodology for corpus augmentation via causal interventions that breaks associations between gendered and gender-neutral words. We empirically show that CDA effectively decreases gender bias while preserving accuracy. We also explore the space of mitigation strategies with CDA, a prior approach to word embedding debiasing (WED), and their compositions. We show that CDA outperforms WED, drastically so when word embeddings are trained. For pre-trained embeddings, the two methods can be effectively composed. We also find that as training proceeds on the original data set with gradient descent the gender bias grows as the loss reduces, indicating that the optimization encourages bias; CDA mitigates this behavior.

研究の動機と目的

ニュ—ラルNLPタスクにおける性別バイアスを測定するための、一般的で因果検証ベースのベンチマークを提案する。
最先端モデルを用いて、ニューラルコアリファレンス解決と言語モデリングにおける性別バイアスを実証する。
語彙埋め込みデバイアス除去を含むデバイアス緩和戦略と counterfactual data augmentation (CDA) を評価する。
CDAが予測精度を保持しつつバイアスを低減すること、及び従来のデバイアンス手法と比較した結果を示す。

提案手法

コアリファレンスと言語モデリングにおける性別バイアスを定量化するため、対応付けられた介入ペアを用いてスコアベースのバイアス指標を定義する。
職業を中心としたテンプレートと性別スワップ（g_naive）を用いて、バイアス測定の介入ペアを構築する。
トレーニングデータへ性別を入れ替えた反事実例を追加することで counterfactual data augmentation (CDA) を適用する。
神経コアレファレンスモデルとRNN言語モデルを横断して、CDAと語彙埋め込みデバイアス除去（WED）およびそれらの組み合わせを比較する。
トレーニング中のバイアスの増加を分析し、CDAがこの増加を緩和することを示す。
CoNLL-2012 のコアファレンスデータを Lee et al. (2017) および Clark & Manning (2016b) のモデルで評価し、WikiText-2 の言語モデリングを二層の LSTM で評価する。

実験結果

リサーチクエスチョン

RQ1ニューラルNLPモデルはコアファレンス解決と言語モデリングにおいて性別バイアスを示すか？
RQ2CDAは精度を犠牲にせずにバイアスを低減できるか、そしてそれはWEDとどう比較されるか？
RQ3トレーニング中のバイアスの変化はどのようで、CDAはその増加を抑制できるか？
RQ4CDAとWEDを組み合わせた場合、偏りのある下流タスクにどんな影響があるか？

主な発見

ニューラルモデルはコアファレンスと言語モデリングにおいて、職業に関連する顕著な性別バイアスを示す。
CDAは集計された職業関連バイアスを大幅に低減し、タスク全体で精度を保持する（または最小限に影響を与える）。
語彙埋め込みデバイアス除去のみではいくらかのバイアスを減らすが、埋め込みがモデルと共同訓練される場合には下流の精度を損なうことが多い。
CDAと事前訓練WEDの組み合わせは相補的なデバイアス緩和効果を提供する可能性がある一方で、特定の組み合わせは過度に補正したり性能を損なうことがある。
CDAによるデバイアス緩和は、特に埋め込みがモデルと共同訓練される場合、WEDよりもバイアス低減に有効である。
元データでの訓練中、損失が減少するにつれてバイアスが増加することがあるが、CDAはこの傾向を緩和する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。