QUICK REVIEW

[논문 리뷰] Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias

Jesse Vig, Sebastian Gehrmann|arXiv (Cornell University)|2020. 04. 26.

Topic Modeling참고 문헌 75인용 수 66

한 줄 요약

이 논문은 내부 구성요소(뉴런, 어텐션 헤드)를 입력과 출력 사이의 매개변수로 간주하여 인과 매개 분석(causal mediation analysis)을 통해 신경 NLP 모델을 해석하고, Transformer 기반 LM의 성별 편향에 이를 적용한다.

ABSTRACT

Common methods for interpreting neural models in natural language processing typically examine either their structure or their behavior, but not both. We propose a methodology grounded in the theory of causal mediation analysis for interpreting which parts of a model are causally implicated in its behavior. It enables us to analyze the mechanisms by which information flows from input to output through various model components, known as mediators. We apply this methodology to analyze gender bias in pre-trained Transformer language models. We study the role of individual neurons and attention heads in mediating gender bias across three datasets designed to gauge a model's sensitivity to gender bias. Our mediation analysis reveals that gender bias effects are (i) sparse, concentrated in a small part of the network; (ii) synergistic, amplified or repressed by different components; and (iii) decomposable into effects flowing directly from the input and indirectly through the mediators.

연구 동기 및 목표

신경 NLP 모델을 해석하기 위한 인과 매개 분석의 동기를 제시하고 이를 형식화한다.
사전 학습된 Transformer에서 내부 구성요소(뉴런, 어텐션 헤드)가 성별 편향에 인과적으로 어떻게 기여하는지 조사한다.
모델 내부에서 편향 영향의 희소성, 시너지 효과, 분해 가능성에 대한 실증적 증거를 제공한다.

제안 방법

신경망을 입력을 루트로, 출력을 잎으로 하는 DAG로 모델링한다.
입력(성별 설정)과 매개자(특정 뉴런 또는 어텐션 헤드)에 대한 do-개입을 정의한다.
매개자의 인과 역할을 정량화하기 위해 총 효과(TE), 자연 직접 효과(NDE), 자연 간접 효과(NIE)를 계산한다.
뉴런 및 어텐션 헤드 수준에서 개입을 적용하여 GPT2 변형 및 다른 모델에서 편향에 대한 기여를 측정한다.
Professions, Winobias, Winogender를 포함한 데이터세트를 사용하여 문법적 성 편향을 평가한다.

실험 결과

연구 질문

RQ1언어 모델의 성별 편향이 뉴런과 어텐션 헤드와 같은 내부 구성요소에 의해 어떻게 매개되는가?
RQ2편향 효과가 Transformer 모델 내에서 희소하고 시너지적이며 직접 경로와 간접 경로로 분해 가능한가?
RQ3GPT2를 넘어 모델 크기와 아키텍처에 걸쳐 발견이 일반화되는가?
RQ4다른 편향 측정 데이터 세트가 관찰된 매개 효과에 어떤 영향을 미치는가?

주요 결과

편향 효과는 더 큰 모델에서 더 크게 나타나고, 가장 큰 GPT2 변형에서 포화될 수 있다.
성별 편향은 모델 구성요소의 작은 부분에 집중되어 있어 희소성을 시사한다.
매개자 간 상호작용은 편향을 증폭시키거나 감소시켜 구성요소 간의 시너지 효과를 보인다.
총 효과는 직접 효과와 간접 효과의 합으로 잘 근사되며, 비선형성에도 불구하고 분해 가능성을 시사한다.
발견은 자가회귀 모델 전반에 일반화되며, 마스킹된 LMs에서는 다소 일반화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.