QUICK REVIEW

[논문 리뷰] Causal Learning and Explanation of Deep Neural Networks via Autoencoded Activations

Michael Harradon, Jeff Druce|arXiv (Cornell University)|2018. 02. 02.

Explainable Artificial Intelligence (XAI)참고 문헌 17인용 수 49

한 줄 요약

이 논문은 자동 인코더로 인간이 해석 가능한 개념을 추출한 뒤 CNN의 인과 설명 가능 프레임워크를 제시하고, 각 개념이 DNN 출력에 미치는 인과적 영향을 정량화하고 시각화하기 위해 베이지안 네트워크를 구축합니다.

ABSTRACT

Deep neural networks are complex and opaque. As they enter application in a variety of important and safety critical domains, users seek methods to explain their output predictions. We develop an approach to explaining deep neural networks by constructing causal models on salient concepts contained in a CNN. We develop methods to extract salient concepts throughout a target network by using autoencoders trained to extract human-understandable representations of network activations. We then build a bayesian causal model using these extracted concepts as variables in order to explain image classification. Finally, we use this causal model to identify and visualize features with significant causal influence on final classification.

연구 동기 및 목표

DNN에서 인과 설명의 필요성에 대한 동기를 부여합니다. 특히 안전에 민감한 분야에서의 필요성.
입력, 개념, 출력과의 관계를 갖는 DNN의 인간 해석 가능한 인과 모델을 제안합니다.
활성화에서 저차원이고 해석 가능한 개념을 추출하는 비지도 방법을 개발합니다.
개념이 분류에 미치는 인과 효과를 정량화하기 위한 베이지안 네트워크를 구성합니다.
출력에 높은 인과 영향을 주는 개념의 시각화 및 해석 가능을 시연합니다.

제안 방법

활성화로부터 저차원이고 해석 가능한 개념을 추출하기 위해 여러 CNN 계층에서 오토인코더를 훈련시키고, 얕은 재구성, 다운스트림 출력에 대한 KL-발산(깊은 재구성), 해석 가능성 용어(희소성, 교차 엔트로피, 총 변화)를 결합한 손실 함수를 사용합니다.
학습된 오토인코더를 네트워크에 삽입해 원시 활성화가 아닌 코딩된 개념에 대한 개입을 가능하게 하고 통계적 관계를 보존합니다.
개념 C가 활성화에서 얻어지고 입력 P와 출력을 O 사이의 개입으로 연결되는 P(O, P, C) 인과 모델을 구성합니다.
코딩된 개념 특성 이미지를 0으로 만들어 개입하고, 계층 간 인과 의존성을 포착하는 베이지안 네트워크를 맞추기 위해 데이터를 수집합니다.
개입이 출력 예측에 미치는 기대 인과 효과를 정의하고 계산합니다(식 6).
상위 개념을 기대 인과 효과로 시각화하고 해석을 돕기 위한 최근접 이웃 맥락을 제공합니다.

실험 결과

연구 질문

RQ1원시 뉴런이 아닌 인간이 이해할 수 있는 개념을 사용하여 DNN을 인과적으로 모델링할 수 있을까?
RQ2오토인코딩된 활성화가 해석 가능한 개념을 산출하고, 이들을 개입할 때 출력에 대한 인과적 영향을 드러낼 수 있을까?
RQ3개념의 인과 영향을 수량화하고 시각화하는 방법은 무엇인가?
RQ4개념 위에 베이지안 네트워크를 구축하면 오해 판단의 설명과 디버깅이 더 견고해질까?

주요 결과

인간이 이해할 수 있는 개념으로 작동하는 DNN의 인과 모델은 실행 가능하고 설명 가능성에 유익하다.
비지도 학습 기반의 오토인코더 기반 개념 추출 방법은 여러 네트워크 계층에 걸친 저차원 해석 가능한 특징을 산출한다.
오토인코딩된 개념에 대한 개입은 베이지안 네트워크를 통해 출력에 대한 인과 효과를 추정하게 한다.
출력에 대한 기대 인과 효과가 높은 상위 개념을 식별하고 시각화하여 분류를 설명한다.
Birds200 및 Inria Pedestrian 데이터셋에서 VGG16/19 아키텍처로 시연하였으며, 머리 실루엣과 신체 특징 등 해석 가능한 인과 요인을 드러냈다.
논문은 데이터셋 전체에서 평균 인과 영향력으로 개념 특징을 양적으로 순위화하고 예시를 Figure 9에 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.