QUICK REVIEW

[논문 리뷰] Model Agnostic Contrastive Explanations for Structured Data

Amit Dhurandhar, Tejaswini Pedapati|arXiv (Cornell University)|2019. 05. 31.

Fault Detection and Control Systems인용 수 29

한 줄 요약

이 논문은 구조화된 데이터에 대해 쿼리 접근만으로도 임의의 블랙박스 분류 모델의 대조적 설명—유의미한 양성 및 음성 예측—을 생성할 수 있는 모델에 종속되지 않는 방법인 MACEM을 제안한다. 이는 실수형 및 범주형 특성 처리를 위한 체계적인 프레임워크를 도입하여, 다섯 개인 공개 데이터셋에서 LIME 대비 정량적 및 정성적 평가 모두에서 설명 품질을 크게 향상시킨다.

ABSTRACT

Recently, a method [7] was proposed to generate contrastive explanations for differentiable models such as deep neural networks, where one has complete access to the model. In this work, we propose a method, Model Agnostic Contrastive Explanations Method (MACEM), to generate contrastive explanations for \emph{any} classification model where one is able to \emph{only} query the class probabilities for a desired input. This allows us to generate contrastive explanations for not only neural networks, but models such as random forests, boosted trees and even arbitrary ensembles that are still amongst the state-of-the-art when learning on structured data [13]. Moreover, to obtain meaningful explanations we propose a principled approach to handle real and categorical features leading to novel formulations for computing pertinent positives and negatives that form the essence of a contrastive explanation. A detailed treatment of the different data types of this nature was not performed in the previous work, which assumed all features to be positive real valued with zero being indicative of the least interesting value. We part with this strong implicit assumption and generalize these methods so as to be applicable across a much wider range of problem settings. We quantitatively and qualitatively validate our approach over 5 public datasets covering diverse domains.

연구 동기 및 목표

쿼리 접근만으로 클래스 확률에 접근할 수 있는 임의의 블랙박스 분류 모델에 대해 대조적 설명—유의미한 양성 및 음성 예측—을 생성할 수 있는 모델에 종속되지 않는 방법을 개발하는 것.
기존 대조적 설명 방법의 한계를 해결하기 위해, 모델의 미분 가능성과 모든 특성이 양의 실수이며 기저 값이 0임을 전제로 하는 것을 제거하는 것.
실수형 및 범주형 특성에 대해 기저 값의 체계적인 정의 방법을 제공하여 다양한 데이터 유형 간 의미 있는 대조적 설명을 가능하게 하는 것.
특히 금융 및 헬스케어와 같은 규제 분야에서 전문가의 직관과 일치하고 신뢰할 수 있는 설명을 보장하는 것.
다양한 구조화된 데이터 기준에서 정량적 및 정성적 평가를 통해 방법의 타당성을 검증하고, LIME과 같은 기존 방법보다 뛰어난 성능을 입증하는 것.

제안 방법

MACEM은 FISTA 기반 최적화 프레임워크를 사용하여, 예측을 유지하거나 뒤바꾸는 희소 변형을 계산함으로써 유의미한 양성 예측(PPs)과 유의미한 음성 예측(PNs)을 생성한다.
실수형 및 범주형 특성의 기저 값에 대한 새로운 수식을 도입하여, 각 특성 유형의 최소 정보 또는 중립 상태를 나타내는 기저 값을 정의한다.
실수형 특성의 경우, 특성의 분포에 따라 기저 값이 최소값 또는 중앙값으로 정의되어 의미적 일관성을 확보한다.
범주형 특성의 경우, 모드 또는 중립 범주로 기저 값을 결정하고, 기울기 기반 최적화를 가능하게 하기 위해 원핫 인코딩 전략을 사용한다.
PP 및 PN 탐색을 제약 조건이 있는 최적화 문제로 설정하여, L1-노름 변형을 최소화하면서도 모델의 출력 클래스를 유지하거나 변경하는 것을 목표로 한다.
모델 내부 분석 없이 유한 차분을 통해 기울기를 추정하는 쿼리 기반 모델 접근 방식을 활용하여 최적화를 수행한다.

실험 결과

연구 질문

RQ1랜덤 포레스트나 기울기 부스팅 트리와 같은 비미분 가능 모델에 대해 쿼리 접근만으로도 효과적으로 대조적 설명을 생성할 수 있는가?
RQ2실수형 및 범주형 특성에 대해 기저 값을 의미적으로 정의할 수 있는 방법은 무엇이며, 이를 통해 의미적으로 일관된 유의미한 양성 및 음성 예측를 확보할 수 있는가?
RQ3제안된 방법이 특성 중요도 및 모델 민감도 측면에서 LIME보다 더 정확하고 신뢰할 수 있는 설명을 제공하는가?
RQ4PPs와 PNs가 의사결정 트리 경로와 비교할 때 얼마나 많은 보완적 정보를 포괄하는가?
RQ5MACEM에서 전문가가 검증한 설명은 프록시 모델 기반 방법보다 도메인 특화 지식을 더 잘 반영하는가?

주요 결과

MACEM은 다섯 개인 공개 데이터셋에서 LIME보다 CFIP_PP 및 CFIP_PN 지표에서 뛰어난 성능을 보였으며, 관련 특성 식별 정확도가 높았다.
독일 신용 데이터셋에서, 재정 전문가에 의해 평가된 바, MACEM이 생성한 50개의 PPs 중 44개, 50개의 PNs 중 38개가 타당한 것으로 평가되었으며, LIME의 경우 각각 27개와 19개로 낮았다.
후각 데이터셋에서, 신경과학 전문가에 의해 평가된 바, MACEM이 생성한 50개의 PPs 중 41개, 50개의 PNs 중 39개가 타당한 것으로 평가되었으며, LIME의 경우 각각 32개와 20개로 낮았다.
독일 신용 및 후각 데이터셋에서 80% 이상의 입력에 대해 MACEM의 상위 PP 특성들이 모델의 의사결정 경로 상의 상위 특성들과 일치했으며, 이는 글로벌 해석 가능성의 가능성을 시사한다.
전문가 피드백에 따르면, MACEM의 PNs는 LIME의 것보다 일관되게 더 정확했으며, 예측을 뒤바꾸는 최소이면서 의미 있는 변화를 잘 반영했다.
이 방법은 실수형 및 범주형 특성을 포함한 다양한 구조화된 데이터 유형으로 일반화되며, 모델의 미분 가능성이나 특성 의미론에 대한 강한 가정에 의존하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.