QUICK REVIEW

[논문 리뷰] Learning to Explain: An Information-Theoretic Perspective on Model Interpretation

Jianbo Chen, Le Song|arXiv (Cornell University)|2018. 02. 21.

Machine Learning and Data Classification인용 수 274

한 줄 요약

이 논문은 학습된 특성 부분집합과 모델 출력 사이의 상호정보를 최대화하는 인스턴스별 특성 선택기를 제시하며, 효율적인 학습과 설명을 위해 변분 하한 및 연속 이완을 사용합니다.

ABSTRACT

We introduce instancewise feature selection as a methodology for model interpretation. Our method is based on learning a function to extract a subset of features that are most informative for each given example. This feature selector is trained to maximize the mutual information between selected features and the response variable, where the conditional distribution of the response variable given the input is the model to be explained. We develop an efficient variational approximation to the mutual information, and show the effectiveness of our method on a variety of synthetic and real data sets using both quantitative metrics and human evaluation.

연구 동기 및 목표

인스턴스별로 모델 출력에 정보를 제공하는 각 인스턴스마다 특징의 부분집합을 선택하는 것으로 인스턴스별 특징 선택을 정의한다.
선택된 특징과 모델 반응 사이의 상호정보를 최대화하는 정보이론적 목적함수를 제안한다.
효율적 학습을 위한 tractable variational lower bound와 신경망 기반 설명자를 개발한다.
합성 및 실제 데이터셋에서 정량적 지표와 인간 평가를 통해 효과성과 효율성을 입증한다.

제안 방법

설명을 입력 X당 k개 특징 부분집합 S를 선택하여 I(X_S; Y)를 최대화하는 것으로 설명을 형식화한다.
Y|X_S에 대한 분포의 가족 Q를 사용한 상호정보의 변분 하한을 도입한다.
Q를 하나의 신경망 g_alpha로 매개화하여 P_m(Y|X_S)를 모델링한다.
샘플링 가능한 부분집합 S를 제공하고 구분 가능한 최적화를 가능하게 하는 연속 이완(Gumbel-softmax / Concrete)을 사용한다.
설명자 매개변수 theta와 모델 근사 매개변수 alpha를 확률적 경사 하강법으로 공동 최적화한다.
나중에 learned weights w_theta(X)에 따라 특징을 랭킹하고 상위-k 특징을 선택하여 설명한다.

실험 결과

연구 질문

RQ1인스턴스마다 모델 출력과 상호정보를 최대화하는 인스턴스별 특징 부분집합을 학습할 수 있는가?
RQ2모델에 구애받지 않고 추론 시 효율적인 해설자를 학습시키기에 충분한 tractable variational bound가 존재하는가?
RQ3제안된 L2X 접근법이 정확도와 속도 측면에서 기존의 인스턴스별 설명 방법들보다 성능이 우수한가?
RQ4합성 비선형 데이터 및 실제 데이터셋(텍스트 및 이미지)에서 설명 품질과 인간 일치도에 대해 방법의 성능은 어떠한가?

주요 결과

L2X는 비선형 및 스위칭 특성 데이터셋에서 특징 랭킹 품질 측면에서 기저방법(Saliency, DeepLIFT, SHAP, LIME)을 능가합니다.
이 접근법은 포스트-호크 정확도에서 경쟁력 있거나 우수한 성능을 보이며 감정 분석 및 MNIST 실험에서 인간 판단과 잘 일치합니다.
설명 시간 측면에서 L2X는 인스턴스당 단일 순전파만으로 설명을 생성할 수 있어 더 효율적입니다.
데이터 규모가 커질수록 학습 시간이 총 시간에서 차지하는 비율이 작아져 상대적 효율이 향상됩니다.
이 방법은 원래 모델 예측에 대한 높은 충실도를 유지하면서도 모델에 무관한 설명을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.