QUICK REVIEW

[논문 리뷰] Understanding Neural Networks through Representation Erasure

Jiwei Li, Will Monroe|arXiv (Cornell University)|2016. 12. 24.

Topic Modeling참고 문헌 23인용 수 462

한 줄 요약

프레임워크를 제안하여 표현의 일부(입력 차원, 단어, 또는 은닉 단위)를 지워 결정에 미치는 영향을 분석하고, 최소한의 단어를 지워 예측을 뒤집는 것을 목표로 하는 강화 학습 방법을 포함합니다.

ABSTRACT

While neural networks have been successfully applied to many natural language processing tasks, they come at the cost of interpretability. In this paper, we propose a general methodology to analyze and interpret decisions from a neural model by observing the effects on the model of erasing various parts of the representation, such as input word-vector dimensions, intermediate hidden units, or input words. We present several approaches to analyzing the effects of such erasure, from computing the relative difference in evaluation metrics, to using reinforcement learning to erase the minimum set of input words in order to flip a neural model's decision. In a comprehensive analysis of multiple NLP tasks, including linguistic feature classification, sentence-level sentiment analysis, and document level sentiment aspect prediction, we show that the proposed methodology not only offers clear explanations about neural model decisions, but also provides a way to conduct error analysis on neural models.

연구 동기 및 목표

신경망 NLP 모델의 해석 가능성을 고취하고 결정에 기여하는 표현을 식별한다.
입력 및 은닉 표현에 적용 가능한 일반적인 제거 기반 분석 프레임워크를 개발한다.
제거를 통해 언어적 특징의 사용, 단어 중요도, 모델 구조의 동작을 드러내는 방법을 보여준다.
결정을 향상시키는 표현의 제거를 식별함으로써 오류 분석 도구를 제공한다.

제안 방법

정확한 라벨의 로그 가능도에 대한 단어 벡터 차원의 제거 영향력을 측정하는 중요도 점수 I(d)를 정의한다(식(1)).
어휘에서 문서 수준에 이르는 NLP 작업 전반에서 입력 단어 차원, 단어 또는 은닉 유닛에 제거를 적용한다.
Word2Vec, GloVe 등의 단어 임베딩으로 다양한 태깅 과제에 대해 4층 네트워크를 학습하고 차원별 중요도를 계산한다.
감정 태스크에서 제거를 사용하여 영향력 있는 감정 지표를 식별하는 단어 수준 분석으로 확장한다.
모델의 예측을 바꾸는 최소 단어 부분집합을 찾기 위한 강화 학습 접근법을 도입한다(식(2)–(7)).
해석 가능성과 오류 분석을 보여주기 위해 POS, NER, 청크, 접두사/접미사, 단어 형태, 감정, hotel-Review 특성 데이터에서 평가한다.

실험 결과

연구 질문

RQ1어떤 입력 차원, 단어, 은닉 유닛이 다 Task에 걸쳐 신경망 NLP 결정에 가장 큰 기여를 하는가?
RQ2표현의 일부를 제거하는 것이 모델 성능과 오류 분석에 어떤 영향을 미치는가?
RQ3강화 학습을 사용하여 제거가 모델 결정을 뒤집는 최소한의 단어 부분집합을 식별할 수 있는가?
RQ4다른 구조(RNN, LSTM, Bi-LSTM)가 제거에 얼마나 민감하게 다른가?
RQ5제거가 특징 표현에 대해 어떤 언어적 통찰(POS, NER, 감정 지표)을 드러낼 수 있는가?

주요 결과

입력 벡터 차원을 제거하면 작업 의존적 중요도 패턴과 작업 간 공유 차원이 드러난다.
GloVe 기반 모델은 빈도 관련 차원의 소수 집합에 의존하는 반면, Word2Vec는 단일 지배적 빈도 차원을 보이지 않는다.
상위 네트워크 계층은 중요도를 더 넓게 분배하는 반면, 입력 계층은 정보를 몇 개의 차원에 집중시킨다.
감정을 나타내는 단어를 지우는 것은 Bi-LSTM에서 더 강한 효과를 보이고 RNN보다 우수해 감정 신호에 더 잘 집중함을 시사한다.
단어를 제거하면 음의 중요도가 나올 수 있는데, 이는 일부 단어가 올바른 결정을 방해함을 의미하며 오류 분석에 활용될 수 있다.
강화 학습은 예측을 뒤집는 최소 단어 부분집합을 식별하여 결정에 대한 해석 가능한 합리화를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.