Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Automatic Concept-based Explanations

Amirata Ghorbani, James Wexler|arXiv (Cornell University)|2019. 02. 07.
Explainable Artificial Intelligence (XAI)참고 문헌 47인용 수 86
한 줄 요약

ACE가 다중 해상도 이미지에서 세그먼트를 클러스터링하고 TCAV로 그 중요성을 측정하여 데이터에서 인간이 이해할 수 있는 개념을 자동으로 발견하고, 신경망에 대한 글로벌, 개념 기반 설명을 가능하게 한다.

ABSTRACT

Interpretability has become an important topic of research as more machine learning (ML) models are deployed and widely used to make important decisions. Most of the current explanation methods provide explanations through feature importance scores, which identify features that are important for each individual input. However, how to systematically summarize and interpret such per sample feature importance scores itself is challenging. In this work, we propose principles and desiderata for \emph{concept} based explanation, which goes beyond per-sample features to identify higher-level human-understandable concepts that apply across the entire dataset. We develop a new algorithm, ACE, to automatically extract visual concepts. Our systematic experiments demonstrate that \alg discovers concepts that are human-meaningful, coherent and important for the neural network's predictions.

연구 동기 및 목표

  • 예측에 대해 의미 있고 일관되며 지역적으로 중요한 개념 기반 설명의 바람직한 요건을 정의한다.
  • 개념에 대한 인간 레이블링 없이 데이터에서 고수준 개념을 자동으로 발견한다.
  • 발견된 개념이 인간에게 의미 있고, 일관되며 모델의 예측에 유용함을 시연한다.
  • ImageNet에서 널리 사용되는 CNN에 적용 가능한 확장 가능한 프레임워크를 제공한다.
  • 개념과 그 중요성을 검증하기 위한 실험을 통한 인간-in-the-loop 검증을 제공한다.

제안 방법

  • 학습된 분류기와 클래스별 이미지 세트를 ACE에 입력한다.
  • 단순한 개념에서 복잡한 개념까지 포착하기 위해 다중 해상도에서 이미지를 분할한다.
  • 세그먼트를 CNN 활성화 공간으로 매핑하고 클러스터링하여 개념을 형성하되 이상치를 제거한다.
  • 타깃 클래스에 대한 개념의 중요도를 계산하기 위해 TCAV를 사용한다.
  • 인간 실험을 통해 개념의 의미성과 일관성을 평가하고, SSC/SDC 아이디어를 통해 개념 기반 중요성을 분석한다.

실험 결과

연구 질문

  • RQ1ACE가 데이터에서 의미 있고 일관된 개념을 수동 레이블링 없이 자동으로 발견할 수 있는가?
  • RQ2추출된 개념이 모델이 예측에 사용하는 내용과 의미 있게 반영되는가?
  • RQ3개념이 추가되거나 제거될 때 개념 수준의 중요도 점수(TCAV)는 어떻게 동작하는가?
  • RQ4ACE로 발견된 개념에서 모델에 대한 질적/양적 인사이트는 무엇이 등장하는가?

주요 결과

  • ACE는 다중 추상 수준(질감, 부품, 물체)의 개념을 발견하며, 이는 일관되고 인간이 보통 해석할 수 있다.
  • 인간 실험은 발견된 개념이 개인 간에 일관되고 의미 있음을 보여준다.
  • 최상위 개념들이 예측에 상당한 영향을 미치며, 최상위 개념을 제거하면 평가된 이미지에서 정확도가 크게 감소한다.
  • 100개 ImageNet 클래스 중, 선택적으로 추가/제거했을 때 상위 5개 ACE 개념으로 원래 정확도의 약 80%에 도달한다.
  • 중요한 개념을 빈 이미지에 이어붙여도 여전히 올바른 클래스 예측으로 이어질 수 있는데, 이는 개념이 모델의 두드러진 신호를 포착함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.