Skip to main content
QUICK REVIEW

[논문 리뷰] Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)

Been Kim, Martin Wattenberg|arXiv (Cornell University)|2017. 11. 30.
Explainable Artificial Intelligence (XAI)인용 수 732
한 줄 요약

논문은 Concept Activation Vectors(CAVs)와 Testing with CAVs(TCAV)를 도입하여 인간이 정의한 개념이 신경망 예측에 어떤 영향을 미치는지 통계적 검증 및 다수의 응용 사례와 함께 정량화한다.

ABSTRACT

The interpretation of deep learning models is a challenge due to their size, complexity, and often opaque internal state. In addition, many systems, such as image classifiers, operate on low-level features rather than high-level concepts. To address these challenges, we introduce Concept Activation Vectors (CAVs), which provide an interpretation of a neural net's internal state in terms of human-friendly concepts. The key idea is to view the high-dimensional internal state of a neural net as an aid, not an obstacle. We show how to use CAVs as part of a technique, Testing with CAVs (TCAV), that uses directional derivatives to quantify the degree to which a user-defined concept is important to a classification result--for example, how sensitive a prediction of "zebra" is to the presence of stripes. Using the domain of image classification as a testing ground, we describe how CAVs may be used to explore hypotheses and generate insights for a standard image classification network as well as a medical application.

연구 동기 및 목표

  • 인간이 해석 가능한 개념을 모델의 학습 데이터 외부일 수 있는 예시 데이터의 집합으로 정의한다.
  • 이러한 개념을 표현하는 활성화 공간의 방향으로서 Concept Activation Vectors를 학습한다.
  • 방향 도함수( TCAV 점수 )를 통해 개념이 클래스 예측에 미치는 영향을 정량화한다.
  • CAVs가 모델 출력과 의미 있게 관련 있음을 검증하는 통계적 검정을 제공한다.
  • 전역적(클래스 수준)의 해석 가능성을 시연하고 의학 영상 작업을 포함한 실제 시나리오에 적용한다.

제안 방법

  • 사용자가 지정한 개념 C를, 선택한 계층 l에서의 활성화의 양의 예시 집합 P_C와 음의 집합 N을 수집하여 정의한다.
  • P_C 대 N를 구분하기 위해 f_l(x)의 활성화를 분리하는 선형 분류기를 학습한다; 결정 경계의 법선 벡터를 Concept Activation Vector v_C^l로 취한다.
  • 개념 민감도 S_{C,k,l}(x)를 v_C^l 방향으로의 클래스 로짓 h_{l,k}의 방향 도함수로 계산한다, 즉 S_{C,k,l}(x) = ∇ h_{l,k}(f_l(x)) · v_C^l.
  • 클래스 k의 모든 입력 X_k에 대해 집계하여 TCAV 점수를 형성: TCAV_q_{C,k,l} = X_k의 x 중 S_{C,k,l}(x) > 0인 분율.
  • 여러 무작위 재샘플링으로 CAV 학습을 반복하고 Bonferroni 보정으로 0.5에 대해 TCAV 점수의 통계적 유의성을 검정한다.
  • 선택적으로 두 개념 C와 D를 비교하기 위해 1-D 부분공간을 나타내는 벡터 v_{C,D}를 사용하는 Relative CAV로 확장한다.

실험 결과

연구 질문

  • RQ1학습 데이터 외부에서 학습된 인간 정의 개념이 클래스 수준에서 신경망(NN) 예측을 설명하고 감사하는 데 사용될 수 있는가?
  • RQ2다수의 실행에 걸쳐 CAV가 모델 출력과 안정적이고 통계적으로 유의한 연관성을 제공하는가?
  • RQ3네트워크의 어느 부분에서 개념이 학습되고, 계층에 따라 개념의 영향은 어떻게 달라지는가?
  • RQ4TCAV 기반 설명은 인간 해석 가능성과 충실도 측면에서 saliency 기반 설명과 어떻게 비교되는가?
  • RQ5실제 작업(예: 의료 영상)에 TCAV를 적용하여 모델 편향이나 오류를 발견하고 잠재적으로 수정할 수 있는가?

주요 결과

  • CAVs는 의도한 개념과 일치하며 재학습 없이도 인기 있는 네트워크의 편향을 드러낼 수 있다.
  • TCAV 점수가 출력 계층에 가까워질수록 더 높아지며, 후반 계층에서 개념이 예측에 더 직접적으로 영향을 미친다는 것을 시사한다.
  • 통계적 검정은 잘못된 개념 연관을 줄이고, 많은 CAV가 유의성 검정을 통과하는 반면 일부는 그렇지 않아 관련 없는 개념을 걸러낸다.
  • 살리언시 맵과 비교할 때, TCAV는 인간 실험에서 개념의 관련성을 더 잘 전달했고 통제된 설정에서 실제 개념 사용과 일치했다.
  • 당뇨망막병증에 적용하여, 서로 다른 DR 수준과 관련된 개념을 강조하고 모델 오류 해석을 도왔다.
  • Relative CAVs는 서로 긴밀하게 관련된 개념들 간의 미세한 비교를 가능케 하여 미묘한 해석을 돕는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.