QUICK REVIEW

[논문 리뷰] "Why Should I Trust You?": Explaining the Predictions of Any Classifier

Marco Túlio Ribeiro, Sameer Singh|arXiv (Cornell University)|2016. 02. 16.

Adversarial Robustness in Machine Learning참고 문헌 25인용 수 346

한 줄 요약

논문은 LIME를 소개한다, 개별 예측을 설명하기 위한 모델-불가지론적 방법으로, 충실하고 국소적으로 대리 가능한 해석가능한 모델들로, 그리고 SP-LIME은 전반적으로 모델을 평가하기 위해 대표적 설명을 선택한다; 텍스트 및 이미지 분류기에서 충실성과 신뢰 향상 이점을 인간 및 시뮬레이션 실험으로 시연한다.

ABSTRACT

Despite widespread adoption, machine learning models remain mostly black boxes. Understanding the reasons behind predictions is, however, quite important in assessing trust, which is fundamental if one plans to take action based on a prediction, or when choosing whether to deploy a new model. Such understanding also provides insights into the model, which can be used to transform an untrustworthy model or prediction into a trustworthy one. In this work, we propose LIME, a novel explanation technique that explains the predictions of any classifier in an interpretable and faithful manner, by learning an interpretable model locally around the prediction. We also propose a method to explain models by presenting representative individual predictions and their explanations in a non-redundant way, framing the task as a submodular optimization problem. We demonstrate the flexibility of these methods by explaining different models for text (e.g. random forests) and image classification (e.g. neural networks). We show the utility of explanations via novel experiments, both simulated and with human subjects, on various scenarios that require trust: deciding if one should trust a prediction, choosing between models, improving an untrustworthy classifier, and identifying why a classifier should not be trusted.

연구 동기 및 목표

실제로 예측에 대한 신뢰를 구축하기 위해 설명의 필요성을 동기화한다.
어떤 분류기든지 예측 주위에서 국소적으로 충실하고 해석 가능한 모델을 학습해 설명하는 LIME를 제안한다.
모델의 전반적 신뢰를 위한 다양하고 대표적인 설명 세트를 선택하기 위한 SP-LIME을 도입한다.
신뢰 관련 작업에서 시뮬레이션과 사람 연구를 통해 설명의 유용성을 입증한다.

제안 방법

입력의 해석 가능한 표현을 정의한다(텍스트는 단어의 존재로, 이미지는 슈퍼픽셀로).
설명을 블랙박스 f를 근사하는 간단하고 해석 가능한 가족 G 안의 모델 g로 형식화한다.
로컬성 가중 손실 L(f,g,πx)와 복잡도 페널티 Ω(g)를 최소화해 설명 ξ(x)를 얻는다.
x′ 주변의 섭동과 근접 커널 πx를 이용해 로컬 대리모형을 f의 출력에 맞춘다.
텍스트와 이미지에 대해 L2 손실과 L1 기반 희소성 단계(K-LASSO)를 사용하는 스파르 선형 설명(g(z′)=w·z′)으로 특성화한다.
실용적 알고리즘(Algorithm 1)을 제시하고 복잡도와 해석 가능성의 트레이드오프를 논의한다.]

실험 결과

연구 질문

RQ1설명들이 개별 예측에 대한 모델의 동작을 충실하게 반영하는가?
RQ2설명이 사용자의 예측에 대한 신뢰를 높이고 모델 간의 선택에 도움을 주는가?
RQ3작고 비중복적인 설명 세트로부터 모델 전체에 대한 이해를 구축할 수 있는가?
RQ4모델-불가지론적 해설기가 다양한 모델(텍스트, 이미지, 신경망)을 설명할 수 있는가?

주요 결과

LIME 설명은 국소 이웃에서 기저 모델에 대해 높은 충실도를 달성한다(예: 두 개의 해석 가능한 분류기에 대해 실제 중요한 특징에 대해 재현율이 >90%).
설명은 개별 예측에 대한 신뢰를 높이고 모델 사용에 대한 의사결정을 개선하며 신뢰할 수 없는 모델을 개선한다.
SP-LIME(서브모듈러 피킹)은 다양한 대표적인 설명 집합을 선택하여 모델 비교 및 신뢰 기반 선택과 같은 작업을 향상시킨다.
정성적 예시는 직관적이고 인간이 이해하기 쉬운 특성 기여(예: 단어 또는 슈퍼픽셀)가 나타난다.
시뮬레이션 및 인간 실험은 설명이 어떤 분류기가 더 잘 일반화하는지 예측하고 특징 공학을 안내하는 등의 작업을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.