QUICK REVIEW

[論文レビュー] Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias

Jesse Vig, Sebastian Gehrmann|arXiv (Cornell University)|Apr 26, 2020

Topic Modeling参考文献 75被引用数 66

ひとこと要約

この論文は、内部構成要素（ニューロン、アテンションヘッド）を入力と出力の間の媒介変数として扱い、ニューラルNLPモデルを解釈するための因果媒介分析を導入し、TransformerベースのLMにおける性別バイアスへ適用する。

ABSTRACT

Common methods for interpreting neural models in natural language processing typically examine either their structure or their behavior, but not both. We propose a methodology grounded in the theory of causal mediation analysis for interpreting which parts of a model are causally implicated in its behavior. It enables us to analyze the mechanisms by which information flows from input to output through various model components, known as mediators. We apply this methodology to analyze gender bias in pre-trained Transformer language models. We study the role of individual neurons and attention heads in mediating gender bias across three datasets designed to gauge a model's sensitivity to gender bias. Our mediation analysis reveals that gender bias effects are (i) sparse, concentrated in a small part of the network; (ii) synergistic, amplified or repressed by different components; and (iii) decomposable into effects flowing directly from the input and indirectly through the mediators.

研究の動機と目的

ニューラルNLPモデルを解釈するための因果媒介分析を動機づけ、形式化する。
事前学習済みのTransformerにおける性別バイアスに対して、内部要素（ニューロン、アテンションヘッド）が因果的にどのように寄与するかを調査する。
モデル内のバイアス効果の疎性、相乗性、分解可能性について経験的証拠を提供する。

提案手法

入力を根、出力を葉とするDAGとしてニューラルネットワークをモデル化する。
入力（set-gender）および媒介変数（特定のニューロンまたはアテンションヘッド）に対するdo介入を定義する。
媒介変数の因果的役割を定量化するために、総効果（TE）、自然直接効果（NDE）、自然間接効果（NIE）を計算する。
ニューロンとアテンションヘッドレベルでの介入を適用して、GPT2系列および他のモデルにおけるバイアスへの寄与を測定する。
Professions、Winobias、Winogender を含むデータセットを用いて文法的性別バイアスを評価する。

実験結果

リサーチクエスチョン

RQ1言語モデルにおける性別バイアスは、ニューロンやアテンションヘッドといった内部要素によってどのように媒介されるのか？
RQ2バイアス効果は、Transformerモデル内で疎性・相乗性を持ち、直接経路と間接経路に分解可能か？
RQ3結果はGPT2を超えるモデルサイズやアーキテクチャにも一般化されるか？
RQ4異なるバイアス測定データセットは、観測された媒介効果にどのような影響を及ぼすか？

主な発見

モデル	パラメータ	層	ヘッド	TE_WB	TE_WG	TE_Professions
GPT2-small rand.	117M	12	12	0.066	0.045	0.117
GPT2-distil	82M	6	12	0.118	0.081	130.859
GPT2-small	117M	12	12	0.249	0.103	112.275
GPT2-medium	345M	24	16	0.774	0.322	115.945
GPT2-large	774M	36	20	0.751	0.364	96.859
GPT2-xl	1558M	48	25	1.049	0.342	225.217

バイアス効果は大きいモデルほど大きく、最大のGPT2系では飽和することがある。
ジェンダー・バイアスはモデルのごく一部の要素に集中しており、疎性を示している。
媒介変数の相互作用はバイアスを増幅したり抑制したりする可能性があり、要素間に相乗効果を示している。
総効果は直接効果と間接効果を足し合わせることで良く近似でき、非線形性にもかかわらず分解可能性を示す。
結果は自己回帰モデル全般に一般化され、マスクドLMにはやや限定的ながら一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。