Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey of the State of Explainable AI for Natural Language Processing

Marina Danilevsky, Kun Qian|arXiv (Cornell University)|2020. 10. 01.
Explainable Artificial Intelligence (XAI)참고 문헌 68인용 수 113
한 줄 요약

본 조사는 NLP에서의 Explainable AI (XAI) 접근법을 검토하고, 설명 유형, 기법, 시각화를 분류하며, 평가의 공백과 향후 방향을 논의한다.

ABSTRACT

Recent years have seen important advances in the quality of state-of-the-art models, but this has come at the expense of models becoming less interpretable. This survey presents an overview of the current state of Explainable AI (XAI), considered within the domain of Natural Language Processing (NLP). We discuss the main categorization of explanations, as well as the various ways explanations can be arrived at and visualized. We detail the operations and explainability techniques currently available for generating explanations for NLP model predictions, to serve as a resource for model developers in the community. Finally, we point out the current gaps and encourage directions for future work in this important research area.

연구 동기 및 목표

  • NLP에서 설명 가능성이 정의되고 사용되는 방법에 대한 구조화된 개요를 제공한다.
  • 지역적(local)/글로벌(global), 자기설명(self-explaining)/사후설명(post-hoc) 등 주요 설명 범주와 그 함의를 요약한다.
  • NLP 모델에서 설명을 도출하고 시각화하는 일반적인 기법들을 상세히 설명한다.
  • 설명의 표준화된 평가를 저해하는 일반적인 평가 방법과 격차를 식별한다.
  • NLP에서 설명 가능성을 향상시키기 위한 미래의 연구 방향을 제시한다.

제안 방법

  • NLP XAI 연구를 지역적/글로벌과 자기설명/사후설명 카테고리로 분류했다.
  • 설명 가능성 기법들(특징 중요도, 대리 모형, 사례 기반, provenance, 선언적 귀납)을 수집·요약했다.
  • 설명 가능성을 가능하게 하는 연산들(first-derivative saliency, layer-wise relevance propagation, input perturbations, attention, LSTM gating signals, explainability-aware architectures)을 기술했다.
  • 시각화 기법들( saliency heatmaps, 원시 선언적 표현, 자연어 설명, 원시 예시)을 개략적으로 제시했다.
  • 비공식 평가, 정답 대조(ground-truth 비교), 인간 평가, 반사실적/지우기 테스트 등의 평가 접근법을 검토하고 예측 과정의 범위를 논의했다.

실험 결과

연구 질문

  • RQ1NLP 모델 예측을 해석하는 데 사용되는 주요 설명 범주는 무엇인가?
  • RQ2NLP에서 가장 일반적으로 적용되는 설명 가능성 기법과 시각화 방법은 무엇인가?
  • RQ3설명은 일반적으로 어떻게 평가되며, 현재 평가 관행의 격차는 무엇인가?
  • RQ4NLP에서 XAI를 발전시키기 위한 미래 방향은 무엇인가?
  • RQ5예측 과정의 설명 범위가 접근 방식에 따라 어떻게 달라지는가?

주요 결과

  • 지역적 설명이 문헌을 지배한다(약 50편 중 46편에 해당) 반면 글로벌 설명은 4편이다.
  • 특징 중요도와 대리모형 접근법이 NLP에서 가장 자주 사용되는 설명 기법이다.
  • 어텐션 메커니즘과 일차 도함수 민감도는 NLP에서 특징 중요도 설명에 널리 사용된다.
  • 설명의 평가는 종종 비공식적이거나 표준화된 지표가 부족하며, 일부 논문에서만 정답값과 인간 평가가 사용된다.
  • 설명에서 더 명확한 용어 사용, 확장된 평가 지표, 충실도 및 최종 사용자를 고려해야 한다는 요구가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.