Skip to main content
QUICK REVIEW

[논문 리뷰] A Framework to Learn with Interpretation

Jayneel Parekh, Pavlo Mozharovskyi|arXiv (Cornell University)|2020. 10. 19.
Explainable Artificial Intelligence (XAI)참고 문헌 57인용 수 6
한 줄 요약

FLINT는 중간 은닉층에서 유도된 고수준 속성 함수를 사용하여 딥 네ural 네트워크 분류기와 해석 가능한 해석 모델을 공동으로 학습하는 새로운 프레임워크이다. 정규화된 희박성과 엔트로피 기반의 간결성 조건을 통해 정확도 저하를 최소화하면서 국소적이고 전역적인 해석 가능성을 달성하며, MNIST, Fashion-MNIST, CIFAR10 및 QuickDraw와 같은 이미지 분류 작업에서 최신 기술을 초월한다.

ABSTRACT

To tackle interpretability in deep learning, we present a novel framework to jointly learn a predictive model and its associated interpretation model. The interpreter provides both local and global interpretability about the predictive model in terms of human-understandable high level attribute functions, with minimal loss of accuracy. This is achieved by a dedicated architecture and well chosen regularization penalties. We seek for a small-size dictionary of high level attribute functions that take as inputs the outputs of selected hidden layers and whose outputs feed a linear classifier. We impose strong conciseness on the activation of attributes with an entropy-based criterion while enforcing fidelity to both inputs and outputs of the predictive model. A detailed pipeline to visualize the learnt features is also developed. Moreover, besides generating interpretable models by design, our approach can be specialized to provide post-hoc interpretations for a pre-trained neural network. We validate our approach against several state-of-the-art methods on multiple datasets and show its efficacy on both kinds of tasks.

연구 동기 및 목표

  • 예측 모델과 해석 모델을 공동으로 훈련시켜 딥 러닝의 해석 가능성 문제를 해결한다.
  • 인간이 이해할 수 있는 고수준 속성 함수를 통해 국소적이고 전역적인 해석 가능성을 제공한다.
  • 엔트로피와 희박성 정규화를 통해 속성 활성화의 간결성과 다양성을 강제하면서도 예측 정확도를 유지한다.
  • 프리트레이닝된 모델에 대한 후행 해석을 가능하게 하기 위해 프레임워크를 특화시킨다.
  • 학습된 속성 개념을 해석하기 위한 시각화 파이프라인을 개발한다.

제안 방법

  • FLINT는 특정 은닉층의 출력을 선형 분류기 가중치로 매핑하는 전용 해석 네트워크와 함께 딥 네URAL 네트워크를 공동으로 훈련시킨다.
  • 해석 모델은 중간 특징에 적용되는 고수준 속성 함수의 사전을 사용하여 예측의 분해를 해석 가능한 개념으로 가능하게 한다.
  • 각 입력에 대해 속성 활성화의 간결성, 다양성 및 중복 제거를 촉진하기 위해 희박성과 엔트로피 기반 정규화를 적용한다.
  • 새로운 관련성 지표는 각 속성이 최종 예측에 기여하는 정도를 정량화하여 국소적 및 전역적 해석 가능성을 지원한다.
  • 프레임워크는 엔드 투 엔드 훈련과 프리트레이닝된 모델의 후행 해석을 모두 지원한다.
  • 학습된 속성 개념을 해석하기 위한 시각화 파이프라인을 개발하였으며, 개념 활성화 기법과 샐런시 기반 세그먼테이션 분석을 활용한다.

실험 결과

연구 질문

  • RQ1공동으로 훈련된 해석 모델은 예측 정확도를 저하시키지 않으면서 국소적이고 전역적인 해석 가능성을 제공할 수 있는가?
  • RQ2엔트로피와 희박성 정규화는 간결하고 다양한 속성 표현을 효과적으로 촉진하는가?
  • RQ3FLINT는 프리트레이닝된 딥 네URAL 네트워크에 대해 효과적으로 후행 해석에 적합한가?
  • RQ4학습된 속성 함수는 인간이 이해할 수 있는 개념과 일관성과 의미 있는 정도에서 어떻게 비교되는가?
  • RQ5은닉층 선택이 해석 가능한 표현의 품질에 어떤 영향을 미치는가?

주요 결과

  • FLINT는 MNIST, Fashion-MNIST, CIFAR10 및 QuickDraw에서 최신 기술을 넘어서는 해석 가능성 성능을 달성하였으며, 속성 표현의 정확도와 간결성 측면에서 뛰어난 성능을 보였다.
  • 엔트로피와 희박성 정규화는 중복된 속성 활성화를 효과적으로 감소시켜 더 해석 가능하고 다양한 개념 표현을 가능하게 하였다.
  • 프리트레이닝된 모델에 적용한 후행 해석을 통해 FLINT는 의미 있는 속성 시각화를 도출하였으며, 이는 네트워크 아키텍처와 훈련 데이터에 따라 성능이 달라질 수 있음을 보여주었다.
  • 학습된 속성의 시각화 결과는 FLINT가 복잡한 데이터셋인 CIFAR10에서도 객체의 부분이나 구조적 패턴과 같은 의미적으로 일관된 개념을 포착하고 있음을 시사하였다.
  • 실험 결과, FLINT의 속성 함수는 특히 ImageNet으로 훈련되지 않은 모델에서 기존 기준 방법인 ACE보다 더 일관되고 인간이 이해할 수 있는 경향을 보였다.
  • 주관적 평가 결과, 인간 평가자들은 FLINT가 생성한 해석이 기존 후행 해석 방법보다 더 직관적이고 정확하다고 평가하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.