QUICK REVIEW

[논문 리뷰] Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)

Been Kim, Martin Wattenberg|arXiv (Cornell University)|2017. 11. 30.

Explainable Artificial Intelligence (XAI)인용 수 732

한 줄 요약

논문은 Concept Activation Vectors(CAVs)와 Testing with CAVs(TCAV)를 도입하여 인간이 정의한 개념이 신경망 예측에 어떤 영향을 미치는지 통계적 검증 및 다수의 응용 사례와 함께 정량화한다.

ABSTRACT

The interpretation of deep learning models is a challenge due to their size, complexity, and often opaque internal state. In addition, many systems, such as image classifiers, operate on low-level features rather than high-level concepts. To address these challenges, we introduce Concept Activation Vectors (CAVs), which provide an interpretation of a neural net's internal state in terms of human-friendly concepts. The key idea is to view the high-dimensional internal state of a neural net as an aid, not an obstacle. We show how to use CAVs as part of a technique, Testing with CAVs (TCAV), that uses directional derivatives to quantify the degree to which a user-defined concept is important to a classification result--for example, how sensitive a prediction of "zebra" is to the presence of stripes. Using the domain of image classification as a testing ground, we describe how CAVs may be used to explore hypotheses and generate insights for a standard image classification network as well as a medical application.

연구 동기 및 목표

인간이 해석 가능한 개념을 모델의 학습 데이터 외부일 수 있는 예시 데이터의 집합으로 정의한다.
이러한 개념을 표현하는 활성화 공간의 방향으로서 Concept Activation Vectors를 학습한다.
방향 도함수( TCAV 점수 )를 통해 개념이 클래스 예측에 미치는 영향을 정량화한다.
CAVs가 모델 출력과 의미 있게 관련 있음을 검증하는 통계적 검정을 제공한다.
전역적(클래스 수준)의 해석 가능성을 시연하고 의학 영상 작업을 포함한 실제 시나리오에 적용한다.

제안 방법

사용자가 지정한 개념 C를, 선택한 계층 l에서의 활성화의 양의 예시 집합 P_C와 음의 집합 N을 수집하여 정의한다.
P_C 대 N를 구분하기 위해 f_l(x)의 활성화를 분리하는 선형 분류기를 학습한다; 결정 경계의 법선 벡터를 Concept Activation Vector v_C^l로 취한다.
개념 민감도 S_{C,k,l}(x)를 v_C^l 방향으로의 클래스 로짓 h_{l,k}의 방향 도함수로 계산한다, 즉 S_{C,k,l}(x) = ∇ h_{l,k}(f_l(x)) · v_C^l.
클래스 k의 모든 입력 X_k에 대해 집계하여 TCAV 점수를 형성: TCAV_q_{C,k,l} = X_k의 x 중 S_{C,k,l}(x) > 0인 분율.
여러 무작위 재샘플링으로 CAV 학습을 반복하고 Bonferroni 보정으로 0.5에 대해 TCAV 점수의 통계적 유의성을 검정한다.
선택적으로 두 개념 C와 D를 비교하기 위해 1-D 부분공간을 나타내는 벡터 v_{C,D}를 사용하는 Relative CAV로 확장한다.

실험 결과

연구 질문

RQ1학습 데이터 외부에서 학습된 인간 정의 개념이 클래스 수준에서 신경망(NN) 예측을 설명하고 감사하는 데 사용될 수 있는가?
RQ2다수의 실행에 걸쳐 CAV가 모델 출력과 안정적이고 통계적으로 유의한 연관성을 제공하는가?
RQ3네트워크의 어느 부분에서 개념이 학습되고, 계층에 따라 개념의 영향은 어떻게 달라지는가?
RQ4TCAV 기반 설명은 인간 해석 가능성과 충실도 측면에서 saliency 기반 설명과 어떻게 비교되는가?
RQ5실제 작업(예: 의료 영상)에 TCAV를 적용하여 모델 편향이나 오류를 발견하고 잠재적으로 수정할 수 있는가?

주요 결과

CAVs는 의도한 개념과 일치하며 재학습 없이도 인기 있는 네트워크의 편향을 드러낼 수 있다.
TCAV 점수가 출력 계층에 가까워질수록 더 높아지며, 후반 계층에서 개념이 예측에 더 직접적으로 영향을 미친다는 것을 시사한다.
통계적 검정은 잘못된 개념 연관을 줄이고, 많은 CAV가 유의성 검정을 통과하는 반면 일부는 그렇지 않아 관련 없는 개념을 걸러낸다.
살리언시 맵과 비교할 때, TCAV는 인간 실험에서 개념의 관련성을 더 잘 전달했고 통제된 설정에서 실제 개념 사용과 일치했다.
당뇨망막병증에 적용하여, 서로 다른 DR 수준과 관련된 개념을 강조하고 모델 오류 해석을 도왔다.
Relative CAVs는 서로 긴밀하게 관련된 개념들 간의 미세한 비교를 가능케 하여 미묘한 해석을 돕는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.