Skip to main content
QUICK REVIEW

[논문 리뷰] On Completeness-aware Concept-Based Explanations in Deep Neural Networks

Chih‐Kuan Yeh, Been Kim|arXiv (Cornell University)|2019. 10. 17.
Explainable Artificial Intelligence (XAI)참고 문헌 37인용 수 50
한 줄 요약

이 논문은 DNN에서 개념 기반 설명의 완전성 점수를 정의하고, 해석 가능성 규제를 통한 완전성 인지 개념 발견 방법을 도입하며, ConceptSHAP을 제시하여 개념 기여도를 정량화한다; 합성 데이터, 이미지(AwA), 텍스트(IMDB) 데이터에 대해 접근법을 검증한다.

ABSTRACT

Human explanations of high-level decisions are often expressed in terms of key concepts the decisions are based on. In this paper, we study such concept-based explainability for Deep Neural Networks (DNNs). First, we define the notion of completeness, which quantifies how sufficient a particular set of concepts is in explaining a model's prediction behavior based on the assumption that complete concept scores are sufficient statistics of the model prediction. Next, we propose a concept discovery method that aims to infer a complete set of concepts that are additionally encouraged to be interpretable, which addresses the limitations of existing methods on concept explanations. To define an importance score for each discovered concept, we adapt game-theoretic notions to aggregate over sets and propose ConceptSHAP. Via proposed metrics and user studies, on a synthetic dataset with apriori-known concept explanations, as well as on real-world image and language datasets, we validate the effectiveness of our method in finding concepts that are both complete in explaining the decisions and interpretable. (The code is released at https://github.com/chihkuanyeh/concept_exp)

연구 동기 및 목표

  • DNN에서 개념 기반 설명에 대한 형식적인 완전성 점수를 정의한다.
  • 비지도 학습 발견을 통해 완전하고 해석 가능한 개념 집합을 개발한다.
  • 완전성 하에서 개념 기여도를 정량화하기 위해 ConceptSHAP를 제안한다.
  • 개념의 일관성과 의미상의 타당성을 보장하기 위해 발견 과정을 규제한다.
  • 합성 데이터 및 실제 세계의 이미지와 언어 데이터에서 효과를 보여준다.

제안 방법

  • 입력 x를 패치 x_t로 표현하고 잠재 공간에서 개념 벡터 c_1,...,c_m에 투사한다.
  • 개념 곱 v_c(x_t)를 c_j와의 임계값이 있는 내적을 통해 정의하고 정규화하여 v_c(x)를 형성한다.
  • 완전한 개념이 예측에 대한 충분 통계치를 제공한다고 가정하고, v_c(x)에서 활성화 공간으로의 매핑 g를 학습하며 예측 성능을 평가한다.
  • 해석 가능성을 높이기 위해 개념 이웃의 지역성/일관성과 개념 간 다양성을 촉진하는 규제항 R(c)를 제안한다.
  • SGD로 개념 발견과 매핑 g를 최적화하기 위해 log P[h_y(g(v_c(x)))] + R(c)의 공동 목적을 최적화한다.
  • ConceptSHAP를 각 개념이 완전성 점수에 기여하는 Shapley 값 기반 기여도으로 정의하며, 다중 클래스 설정의 경우 클래스별 변형도 포함한다.

실험 결과

연구 질문

  • RQ1개념 집합이 DNN 의사결정을 설명하는 데 필요한 충분성(완전성)을 어떻게 정량화할 수 있는가?
  • RQ2모델 예측을 함께 설명하는 완전하고 해석 가능한 개념 집합을 자동으로 발견할 수 있는가?
  • RQ3원칙적으로 전체 완전성 점수(및 클래스별)에 대한 각 개념의 중요도를 어떻게 귀속시킬 수 있는가?

주요 결과

  • 제안된 완전성 점수 eta_f(c_1,...,c_m)은 전체 모델과 비교하여 개념 점수가 모델 예측을 얼마나 잘 회복하는지 측정한다.
  • 완전성 인지 발견 방법은 합성 데이터에서 올바른 개념을 검색하고 자동 정렬 수준을 더 높이는 데 있어 기준선(ACE, ACE-SP, PCA, k-means)을 능가한다.
  • AwA(Animals with Attributes) 및 합성 데이터에서 이 방법은 방법들 중 가장 높은 완전성을 달성한다.
  • ConceptSHAP는 각 개념에 대한 완전성 점수의 기여를 제공하며, Shapley 공리(효율성, 대칭성, 더미, 가법성)를 유지한다.
  • 클래스별 ConceptSHAP 변형은 특정 클래스에 가장 기여하는 개념을 식별하여 클래스별 해석 가능성을 돕는다.
  • 사람과 자동 평가 모두 발견된 개념이 이미지 및 언어 과제(AwA 및 IMDB) 전반에 걸쳐 일관되고 해석 가능하며 의미론적으로 의미가 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.