Skip to main content
QUICK REVIEW

[논문 리뷰] Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions

Xiaochuang Han, Byron Wallace|arXiv (Cornell University)|2020. 05. 14.
Explainable Artificial Intelligence (XAI)참고 문헌 37인용 수 19
한 줄 요약

이 논문은 자연어 추론(NLI)과 같은 복잡한 추론 작업에서, 기존의 기울기 기반 샐리언시 맵과 보완적으로 영향 함수(influence functions)를 사용하여 블랙박스 NLP 모델을 해석하는 방법을 제안한다. 영향 함수가 NLI에서 모델 결정을 설명하는 데 샐리언시 맵보다 더 효과적임을 입증하고, 영향 점수를 사용하여 훈련 데이터셋 내 데이터 아티팩트를 탐지하는 새로운 정량적 측정법을 제안한다.

ABSTRACT

Modern deep learning models for NLP are notoriously opaque. This has motivated the development of methods for interpreting such models, e.g., via gradient-based saliency maps or the visualization of attention weights. Such approaches aim to provide explanations for a particular model prediction by highlighting important words in the corresponding input text. While this might be useful for tasks where decisions are explicitly influenced by individual tokens in the input, we suspect that such highlighting is not suitable for tasks where model decisions should be driven by more complex reasoning. In this work, we investigate the use of influence functions for NLP, providing an alternative approach to interpreting neural text classifiers. Influence functions explain the decisions of a model by identifying influential training examples. Despite the promise of this approach, influence functions have not yet been extensively evaluated in the context of NLP, a gap addressed by this work. We conduct a comparison between influence functions and common word-saliency methods on representative tasks. As suspected, we find that influence functions are particularly useful for natural language inference, a task in which 'saliency maps' may not have clear interpretation. Furthermore, we develop a new quantitative measure based on influence functions that can reveal artifacts in training data.

연구 동기 및 목표

  • 딥 트랜스포머 기반 모델인 BERT와 같은 모델의 예측을 해석하는 데 영향 함수의 신뢰성을 평가하기 위해.
  • 다양한 NLP 작업에서 영향 함수와 기울기 기반 샐리언시 맵 간의 예측 설명을 비교하기 위해.
  • 특히 NLI에서 영향 함수가 훈련 데이터 내 데이터 아티팩트의 영향을 탐지하고 정량화할 수 있는지 조사하기 위해.
  • 영향 함수를 활용하여 가설적인 데이터 아티팩트가 모델 예측에 미치는 영향을 측정하는 새로운 정량적 방법을 제안하기 위해.
  • 복잡한 의미적 작업에서 입력 수준의 샐리언시 방법보다 영향 함수가 더 충실하고 의미 있는 설명을 제공하는지 평가하기 위해.

제안 방법

  • 모델 아키텍처를 수정하지 않고, 영향 함수 프레임워크(Koh & Liang, 2017)를 딥 NLP 모델, 특히 BERT 기반 분류기로 적응시키기 위해.
  • 각 훈련 예시가 테스트 예측에 미치는 영향을 효율적으로 계산하기 위해 헤시안 기반 근사법을 사용하기 위해.
  • 모든 훈련 예시를 영향 점수 기준으로 순위 매겨, 특정 예측에 가장 큰 영향을 미친 훈련 인스턴스를 식별하기 위해.
  • 감성 분석 및 NLI 작업에서 영향 기반 설명과 기울기 기반 샐리언시 맵(예: 기울기 × 입력)을 비교하기 위해.
  • 영향 점수 기반으로 새로운 정량적 지표를 개발하여, 데이터 아티팩트(예: 어휘적 단서)가 모델 예측에 얼마나 영향을 미치는지 평가하기 위해.
  • 영향 점수와 모델이 아티팩트에 얼마나 의존하는지의 상관관계를 평가하기 위해 진단용 데이터셋(예: McCoy 등, 2019)을 사용하기 위해.

실험 결과

연구 질문

  • RQ1딥 트랜스포머 기반 모델인 BERT의 예측을 해석하는 데 영향 함수의 근사가 신뢰성 있게 사용될 수 있는가?
  • RQ2다양한 NLP 작업에서 영향 함수 기반 설명과 기울기 기반 샐리언시 맵 간의 일관성은 어떠한가?
  • RQ3영향 함수는 훈련 데이터 내 데이터 아티팩트가 모델 예측에 미치는 영향을 어느 정도 드러내고 정량화할 수 있는가?
  • RQ4자연어 추론과 같은 복잡한 추론 작업에서 영향 함수는 입력 수준의 샐리언시 방법보다 더 충실한 설명 방법이 될 수 있는가?
  • RQ5영향 함수를 어떻게 체계적으로 활용하여 NLP 데이터셋 내의 데이터 아티팩트를 탐지하고 분석할 수 있는가?

주요 결과

  • 영향 함수 근사는 계산이 복잡하더라도 BERT 기반 모델의 예측을 해석하는 데 신뢰성 있고 효과적이다.
  • 감성 분석 작업에서는 영향 함수와 기울기 기반 샐리언시 맵이 중요한 입력 토큰을 동일하게 식별하는 데 강한 일관성을 보였다.
  • 자연어 추론(NLI) 작업에서는 영향 함수와 샐리언시 맵 간의 차이가 뚜렷하게 나타나며, 영향 함수가 더 의미 있고 맥락적으로 일관된 설명을 제공하였다.
  • 영향 함수는 특히 특정 단어가 레이블과 상관관계가 있는 어휘적 단서나 아티팩트를 포함한 훈련 예시를 효과적으로 식별하는 데 유용하다.
  • 제안된 영향 함수 기반 정량적 측정법은 NLI 데이터셋에서 특정 단어(예: 'entailment' 또는 'contradiction')의 존재와 같은 데이터 아티팩트의 영향을 성공적으로 탐지하고 정량화하였다.
  • 영향 함수는 모델가 종종 히포테시스나 프리미스에 특정 단어의 존재와 같은 표면적 패턴에 의존하며, 깊이 있는 의미적 추론보다는 이를 통해 예측을 내림을 드러내었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.