[논문 리뷰] Attention is not Explanation
이 논문은 표준 주의(attention) 가중치가 NLP 작업 전반에서 모델 예측에 충실한 설명을 제공하는 경우가 드물며; 대체(counterfactual) 주의가 동일한 출력을 만들 수 있고, 그래디언트/leave-one-out 특성 중요도와의 상관관계가 특히 BiLSTM 인코더에서 약하다는 것을 보여준다.
Attention mechanisms have seen wide adoption in neural NLP models. In addition to improving predictive performance, these are often touted as affording transparency: models equipped with attention provide a distribution over attended-to input units, and this is often presented (at least implicitly) as communicating the relative importance of inputs. However, it is unclear what relationship exists between attention weights and model outputs. In this work, we perform extensive experiments across a variety of NLP tasks that aim to assess the degree to which attention weights provide meaningful `explanations' for predictions. We find that they largely do not. For example, learned attention weights are frequently uncorrelated with gradient-based measures of feature importance, and one can identify very different attention distributions that nonetheless yield equivalent predictions. Our findings show that standard attention modules do not provide meaningful explanations and should not be treated as though they do. Code for all experiments is available at https://github.com/successar/AttentionExplanation.
연구 동기 및 목표
- 주의 가중치가 NLP 과제 전반에서 그래디언트와 leave-one-out 등의 특성 중요도 측정치와 상관관계가 있는지 평가한다.
- 대체적인(counterfactual/적대적) 주의 패턴이 예측을 바꾸는지 평가한다.
- BiLSTM 인코더에서 표준 주의 메커니즘의 해석 가능성을 더 간단한 인코더와 비교하여 검사한다.
- 순열 및 적대적 주의 분석을 통한 주의 기반 설명의 강건성을 탐구한다.
제안 방법
- 모델 아키텍처에는 더하기 또는 스케일드 닷-프로덕트 주의가 있는 BiLSTM 인코더와 대조로 단순 피드포워드(평균) 임베딩이 포함된다.
- 그래디언트(τg) 및 leave-one-out(τloo)와 함께 Kendall 타우를 사용하여 주의 가중치와 특성 중요도 간의 상관관계를 정량화한다.
- 주 의 가중치를 순열하고 전체 변이 거리(TVD)를 통해 출력 변화를 측정하여 반사실적 설명(counterfactual 설명)을 평가한다.
- 관측된 주의와의 차이를 최대화하는 적대적 주의 분포를 형식적으로 탐색하되, 예측은 ϵ 임계값 내에 유지한다(Jensen-Shannon 발산).
- 다양한 NLP 과제/데이터셋에 걸쳐 평가: SST, IMDB, ADR Tweets, 20 Newsgroups, AG News, Diabetes/Anemia (MIMIC), CNN QA, bAbI, SNLI.
실험 결과
연구 질문
- RQ11. 학습된 주의 가중치가 그래디언트 기반 특성 중요도 및 leave-one-out 측정치와 과제 전반에서 상관관계가 있는가?
- RQ22. 대체적인 주의 구성(counterfactual/적대적)이 서로 다른 예측을 만들어내는가, 즉 주의 맵이 신뢰할 수 있는 설명인가?
- RQ33. BiLSTM 인코더와 더 간단한 평균 인코더 간의 주의와 특성 중요도 간의 상관관계가 어떻게 다른가?
- RQ44. QA/NLI 과제 및 더 긴 문서에서 주의 기반 설명이 더 신뢰할 만한가?
주요 결과
- 주의 가중치는 데이터셋 전반에서 그래디언트 기반 특성 중요도(τg) 및 leave-one-out(τloo)와의 약하고 일관되지 않은 상관관계를 보인다.
- 적대적 주의 분포는 원래 주의와 본질적으로 동일한 예측을 낼 수 있어, 주의만으로의 설명이 오해를 불러일으킬 수 있음을 시사한다.
- 무작위로 주의 가중치를 섞어도 출력 변화가 미미한 경우가 많아, 특히 BiLSTM 인코더의 경우 주의가 예측을 강하게 제약하지 않는다는 것을 시사한다.
- 피드포워드(평균) 인코더는 BiLSTM 주의보다 주의와 특성 중요도 간의 정렬이 더 강하게 나타난다.
- 일부 긴 문서 데이터셋(예: MIMIC 과제)에서 상관관계가 더 뚜렷하지만 여전히 약하며, 더 많은 데이터 포인트가 명확한 상관관계를 허용하기 때문일 가능성이 있다.
- 전반적으로 주의 메커니즘은 예측 성능을 향상시키지만 모델 결정의 의미 있는 설명을 신뢰성 있게 제공하지는 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.