QUICK REVIEW

[논문 리뷰] A Framework to Learn with Interpretation

Jayneel Parekh, Pavlo Mozharovskyi|arXiv (Cornell University)|2020. 10. 19.

Explainable Artificial Intelligence (XAI)참고 문헌 57인용 수 6

한 줄 요약

FLINT는 중간 은닉층에서 유도된 고수준 속성 함수를 사용하여 딥 네ural 네트워크 분류기와 해석 가능한 해석 모델을 공동으로 학습하는 새로운 프레임워크이다. 정규화된 희박성과 엔트로피 기반의 간결성 조건을 통해 정확도 저하를 최소화하면서 국소적이고 전역적인 해석 가능성을 달성하며, MNIST, Fashion-MNIST, CIFAR10 및 QuickDraw와 같은 이미지 분류 작업에서 최신 기술을 초월한다.

ABSTRACT

To tackle interpretability in deep learning, we present a novel framework to jointly learn a predictive model and its associated interpretation model. The interpreter provides both local and global interpretability about the predictive model in terms of human-understandable high level attribute functions, with minimal loss of accuracy. This is achieved by a dedicated architecture and well chosen regularization penalties. We seek for a small-size dictionary of high level attribute functions that take as inputs the outputs of selected hidden layers and whose outputs feed a linear classifier. We impose strong conciseness on the activation of attributes with an entropy-based criterion while enforcing fidelity to both inputs and outputs of the predictive model. A detailed pipeline to visualize the learnt features is also developed. Moreover, besides generating interpretable models by design, our approach can be specialized to provide post-hoc interpretations for a pre-trained neural network. We validate our approach against several state-of-the-art methods on multiple datasets and show its efficacy on both kinds of tasks.

연구 동기 및 목표

예측 모델과 해석 모델을 공동으로 훈련시켜 딥 러닝의 해석 가능성 문제를 해결한다.
인간이 이해할 수 있는 고수준 속성 함수를 통해 국소적이고 전역적인 해석 가능성을 제공한다.
엔트로피와 희박성 정규화를 통해 속성 활성화의 간결성과 다양성을 강제하면서도 예측 정확도를 유지한다.
프리트레이닝된 모델에 대한 후행 해석을 가능하게 하기 위해 프레임워크를 특화시킨다.
학습된 속성 개념을 해석하기 위한 시각화 파이프라인을 개발한다.

제안 방법

FLINT는 특정 은닉층의 출력을 선형 분류기 가중치로 매핑하는 전용 해석 네트워크와 함께 딥 네URAL 네트워크를 공동으로 훈련시킨다.
해석 모델은 중간 특징에 적용되는 고수준 속성 함수의 사전을 사용하여 예측의 분해를 해석 가능한 개념으로 가능하게 한다.
각 입력에 대해 속성 활성화의 간결성, 다양성 및 중복 제거를 촉진하기 위해 희박성과 엔트로피 기반 정규화를 적용한다.
새로운 관련성 지표는 각 속성이 최종 예측에 기여하는 정도를 정량화하여 국소적 및 전역적 해석 가능성을 지원한다.
프레임워크는 엔드 투 엔드 훈련과 프리트레이닝된 모델의 후행 해석을 모두 지원한다.
학습된 속성 개념을 해석하기 위한 시각화 파이프라인을 개발하였으며, 개념 활성화 기법과 샐런시 기반 세그먼테이션 분석을 활용한다.

실험 결과

연구 질문

RQ1공동으로 훈련된 해석 모델은 예측 정확도를 저하시키지 않으면서 국소적이고 전역적인 해석 가능성을 제공할 수 있는가?
RQ2엔트로피와 희박성 정규화는 간결하고 다양한 속성 표현을 효과적으로 촉진하는가?
RQ3FLINT는 프리트레이닝된 딥 네URAL 네트워크에 대해 효과적으로 후행 해석에 적합한가?
RQ4학습된 속성 함수는 인간이 이해할 수 있는 개념과 일관성과 의미 있는 정도에서 어떻게 비교되는가?
RQ5은닉층 선택이 해석 가능한 표현의 품질에 어떤 영향을 미치는가?

주요 결과

FLINT는 MNIST, Fashion-MNIST, CIFAR10 및 QuickDraw에서 최신 기술을 넘어서는 해석 가능성 성능을 달성하였으며, 속성 표현의 정확도와 간결성 측면에서 뛰어난 성능을 보였다.
엔트로피와 희박성 정규화는 중복된 속성 활성화를 효과적으로 감소시켜 더 해석 가능하고 다양한 개념 표현을 가능하게 하였다.
프리트레이닝된 모델에 적용한 후행 해석을 통해 FLINT는 의미 있는 속성 시각화를 도출하였으며, 이는 네트워크 아키텍처와 훈련 데이터에 따라 성능이 달라질 수 있음을 보여주었다.
학습된 속성의 시각화 결과는 FLINT가 복잡한 데이터셋인 CIFAR10에서도 객체의 부분이나 구조적 패턴과 같은 의미적으로 일관된 개념을 포착하고 있음을 시사하였다.
실험 결과, FLINT의 속성 함수는 특히 ImageNet으로 훈련되지 않은 모델에서 기존 기준 방법인 ACE보다 더 일관되고 인간이 이해할 수 있는 경향을 보였다.
주관적 평가 결과, 인간 평가자들은 FLINT가 생성한 해석이 기존 후행 해석 방법보다 더 직관적이고 정확하다고 평가하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.