Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Explaining Structures Improve NLP Models

Zijun Sun, Chun Chieh Fan|arXiv (Cornell University)|2020. 12. 03.
Topic Modeling참고 문헌 75인용 수 25
한 줄 요약

이 논문은 기존 모델 위에 해석 레이어를 추가함으로써 NLP 모델의 해석 가능성과 성능을 햖थ하는 자기해석 신경망 프레임워크를 제안한다. 이 레이어는 모든 텍스트 스팬(예: 어구, 문장)에 대해 학습 가능한 가중치를 할당하여 외부 프로빙 모델 없이도 직접적인 고수준의 중요도 점수를 산출할 수 있게 하며, SST-5에서 59.1, SNLI에서 92.3의 새로운 SOTA 성능을 달성한다.

ABSTRACT

Existing approaches to explaining deep learning models in NLP usually suffer from two major drawbacks: (1) the main model and the explaining model are decoupled: an additional probing or surrogate model is used to interpret an existing model, and thus existing explaining tools are not self-explainable; (2) the probing model is only able to explain a model's predictions by operating on low-level features by computing saliency scores for individual words but are clumsy at high-level text units such as phrases, sentences, or paragraphs. To deal with these two issues, in this paper, we propose a simple yet general and effective self-explaining framework for deep learning models in NLP. The key point of the proposed framework is to put an additional layer, as is called by the interpretation layer, on top of any existing NLP model. This layer aggregates the information for each text span, which is then associated with a specific weight, and their weighted combination is fed to the softmax function for the final prediction. The proposed model comes with the following merits: (1) span weights make the model self-explainable and do not require an additional probing model for interpretation; (2) the proposed model is general and can be adapted to any existing deep learning structures in NLP; (3) the weight associated with each text span provides direct importance scores for higher-level text units such as phrases and sentences. We for the first time show that interpretability does not come at the cost of performance: a neural model of self-explaining features obtains better performances than its counterpart without the self-explaining nature, achieving a new SOTA performance of 59.1 on SST-5 and a new SOTA performance of 92.3 on SNLI.

연구 동기 및 목표

  • 기존 NLP 모델이 해석을 위해 별도의 프로빙 모델이나 대체 모델에 의존하는 점을 해결한다.
  • 어휘 수준의 중요도 방법이 어구나 문장과 같은 고수준 텍스트 단위의 의미적 조합을 포착하지 못하는 한계를 극복한다.
  • 일반화 가능한 프레임워크를 개발하여 모델 성능을 향상시키면서도 스팬 수준에서 정밀하고 해석 가능한 설명을 가능하게 한다.
  • 해석 가능성과 성능가 서로 상호 배제되는 것이 아니라, 아키텍처 설계를 통해 함께 향상시킬 수 있음을 입증한다.

제안 방법

  • 모든 사전 학습된 NLP 모델 위에 해석 레이어를 도입하여 가능한 모든 텍스트 스팬(O(n²) 스팬)에 대해 어텐션 가중치를 계산한다.
  • 각 텍스트 스팬은 최종 예측에 기여하는 정도를 반영하는 학습 가능한 가중치와 연결되며, 이로써 직접적인 해석이 가능해진다.
  • 스패니드 표현의 가중 평균을 소프트맥스 레이어를 통해 전달하여 최종 분류를 수행함으로써 해석을 주 예측 경로에 통합한다.
  • 해석 레이어는 주 모델과 함께 엔드 투 엔드로 훈련되며, 별도의 프로빙 모델이 필요 없게 된다.
  • 스패니드 레벨 어텐션 가중치를 활용해 어구, 문장, 단락 수준의 중요도 점수를 생성함으로써 고수준의 해석 가능성을 확보한다.
  • 가장 중요도가 높은 스팬을 파라프라제이션으로 교체함으로써 악성 예제 생성에 응용하여 효과적인 공격 성공률를 달성한다.

실험 결과

연구 질문

  • RQ1외부 프로빙 모델에 의존하지 않고도 자기해석 가능한 NLP 모델를 설계할 수 있는가?
  • RQ2어휘 수준의 중요도 방법보다 어구 및 문장 수준의 해석 가능성을 더 효과적으로 달성할 수 있는가?
  • RQ3자기해석 메커니즘을 통합하면 모델 성능이 저하되거나 향상되는가?
  • RQ4스패니드 레벨 어텐션 메커니즘을 활용해 NLP에서 더 효과적인 악성 예제를 생성할 수 있는가?
  • RQ5자기해석 모델은 예측 오류 패tern(예: 무관한 절에 주의를 기울이거나, 비유나 아이러니를 잘못 이해하는 것 등)을 어떻게 드러내는가?

주요 결과

  • 제안된 자기해석 프레임워크는 SST-5 감성 분류 벤치마크에서 59.1의 새로운 SOTA 성능을 달성한다.
  • SNLI 자연어 추론 데이터셋에서 92.3의 새로운 SOTA 결과를 확보하여 일반화 능력 향상을 입증한다.
  • 모델의 해석 레이어는 어구 및 문장 수준에서 직접적인 고수준 중요도 점수를 제공하여 어휘 수준 방법보다 더 명확한 오류 분석이 가능하다.
  • 가장 중요도가 높은 스팬을 파라프라제이션으로 교체함으로써 효과적인 악성 예제 생성이 가능하며, IMDB에서는 정확도가 84% 감소하고 Yahoo! Answers에서는 48.86% 감소한다.
  • 오류 분석 결과, 모델는 대조적 구조에서 무관한 절에 주의를 기울이고, 감성 전환을 감지하지 못하며, 아이러니나 비유를 잘못 이해하는 경향이 있다.
  • 자기해석 메커니즘은 성능을 저하시키지 않으며 오히려 향상시키며, NLP 모델에서 해석 가능성과 정확도가 동시에 달성될 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.