Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Robust Interpretability with Self-Explaining Neural Networks

David Alvarez-Melis, Tommi Jaakkola|arXiv (Cornell University)|2018. 06. 20.
Explainable Artificial Intelligence (XAI)참고 문헌 22인용 수 419
한 줄 요약

본 논문은 해석 가능성을 모델에 해석 가능한 기저 개념과 지역성 기반 규제를 통해 내재화하는 self-explaining neural networks (Senn)를 제안하며, 학습 중 명시적이고 충실하며 안정적인 설명을 강제합니다.

ABSTRACT

Most recent work on interpretability of complex machine learning models has focused on estimating $ extit{a posteriori}$ explanations for previously trained models around specific predictions. $ extit{Self-explaining}$ models where interpretability plays a key role already during learning have received much less attention. We propose three desiderata for explanations in general -- explicitness, faithfulness, and stability -- and show that existing methods do not satisfy them. In response, we design self-explaining models in stages, progressively generalizing linear classifiers to complex yet architecturally explicit models. Faithfulness and stability are enforced via regularization specifically tailored to such models. Experimental results across various benchmark datasets show that our framework offers a promising direction for reconciling model complexity and interpretability.

연구 동기 및 목표

  • 설명에 대한 세 가지 핵심 바람직한(desiderata)을 정의한다: 명시성, 충실성, 그리고 안정성.
  • 학술적으로 해석 가능하고 학습된 기저에서 지역적으로 선형인 self-explaining 모델을 개발한다.
  • 충실하고 안정적인 설명을 강제하면서 예측 성능을 보존하는 정규화를 도입한다.
  • 오토인코더를 통해 해석 가능한 기저 개념을 학습하고 프로토타입으로 접지 grounding을 수행하여 인간이 이해할 수 있는 설명을 제공한다.

제안 방법

  • 선형 모델을 f(x)=theta(x)^T h(x)로 일반화하되, theta(x)는 입력 x에 의존하고 h(x)는 해석 가능한 기저 개념이다.
  • 항 theta_i(x) h_i(x)에 대한 합산 함수 g를 도입하고, 특징으로는 단조성, 가법성, 그리고 non-mading 상호작용(P1-P5)을 가진다.
  • 로컬 관계를 강제하여 지역 안정성을 부여한다: f의 그라디언트가 이웃에서 theta(x0)에 근사하도록 한다(L_theta 정규화).
  • h(x)를 원시 입력이나 더 높은 수준의 개념으로 오토인코더를 통해 학습하고 grounding 및 다양성 제약(L_h)과 프로토타입 기반 grounding을 포함한다.
  • 합성 손실 L_y + lambda L_theta + xi L_h(및 필요 시 다른 정규화 항들)로 엔드 투 엔드 학습한다.
  • 개념 수준에서의 해석 가능성을 보존하면서 높은 모델링 용량을 유지하기 위해 theta를 신경망으로 구현하는 것을 선택적으로 허용한다.

실험 결과

연구 질문

  • RQ1설명은 구성상으로 명시적이고 충실하며 안정적이도록 모델을 어떻게 설계할 수 있는가?
  • RQ2입력 의존 계수와 해석 가능한 기저 개념을 통해 선형 해석 가능성을 복합 모델로 확장할 수 있는가?
  • RQ3모델의 민감도를 개념 기반 설명과 정렬시키는 그래디언트 기반 정규화가 정확도를 해치지 않으면서 안정성을 개선하는가?
  • RQ4오토인코더 기반의 접지 가능하고 프로토타입 접지된 개념들이 예측 설명에 있어 해석 가능한 단위로서 얼마나 유용한가?

주요 결과

  • 자체 해설 모델은 학습된 개념과 그 관련성 점수를 통해 즉시 이해 가능한 설명을 제공한다.
  • 제안된 그래디언트 정규화 L_theta는 설명의 안정성과 충실성을 개선하며, 그 무게는 lambda로 제어된다.
  • 프로토타입과 오토인코더 기반 학습을 통한 grounding은 의미 있고 인간이 이해할 수 있는 설명을 제공한다.
  • MNIST, UCI, Compas 데이터셋 전반에 걸쳐 Senn은 해석 불가능한 baselines에 비해 정확도에서 뒤지지 않으면서도 강건한 개념 기반 설명을 제공한다.
  • 설명에 대한 입력 교란에 대한 강건성 측면에서 LIME, SHAP, 차단 등과 같은 후처리 해석 방법보다 우수한 성능을 보인다.
  • 프레임워크는 엔드투엔드 학습과 원시 특성 너머의 고정된 개념을 유연하게 도입하는 것을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.