Skip to main content
QUICK REVIEW

[논문 리뷰] Regularizing Black-box Models for Improved Interpretability

Gregory Plumb, Maruan Al-Shedivat|arXiv (Cornell University)|2019. 02. 18.
Explainable Artificial Intelligence (XAI)참고 문헌 36인용 수 37
한 줄 요약

ExpO는 학습 중에 블랙박스 모델을 정규화하여 지역 해설 신뢰도와 안정성을 향상시키고, 정확도를 크게 희생하지 않으면서 사후 설명을 더 해석 가능하게 만듭니다. 이는 사용자 연구로 검증되었습니다.

ABSTRACT

Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a hybridization of these approaches that regularizes a model for explanation quality at training time. Importantly, these regularizers are differentiable, model agnostic, and require no domain knowledge to define. We demonstrate that post-hoc explanations for ExpO-regularized models have better explanation quality, as measured by the common fidelity and stability metrics. We verify that improving these metrics leads to significantly more useful explanations with a user study on a realistic task.

연구 동기 및 목표

  • 로컬 해설 신뢰도를 향상시키기 위한 미분 가능하고 모델 비의존적인 정규화항 ExpO-Fidelity를 도입합니다.
  • 모델 가족을 제약하지 않으면서 정확도와 해석가능성 사이의 보간을 허용합니다.
  • 회귀 및 분류 과제에서 사후 해설자(LIME, MAPLE)를 사용하여 ExpO를 경험적으로 평가합니다.
  • ExpO가 해설 품질을 향상시키고 예측 정확도를 약간 개선하거나 유지할 수 있음을 보여줍니다.
  • 실용적 유용성을 입증하는 인간 사용자 연구를 통해 해석가능성 향상을 검증합니다.

제안 방법

  • 해석가능성 규제 목적 함수를 최소화하도록 정의합니다: (L(f, x_i, y_i) + gamma R(f, N_x_i^{reg})).
  • 로컬 설명 신뢰도를 근사하는 차별화 가능하고 이웃 기반의 정규화항으로 ExpO-Fidelity를 사용합니다. N_x^{reg}의 샘플들에 대한 로컬 선형 적합을 통해 근사합니다(알고리즘 1).
  • 더 낮은 비용으로 신뢰도를 근사하기 위해 단일 특징 차원을 섭동하는 더 빠른 변형인 ExpO-1D-Fidelity를 제공합니다.
  • 증강된 손실에 대해 표준 SGD/Adam으로 모델을 학습하여 ExpO-정규화된 모델을 얻습니다.
  • LIME 및 MAPLE 해설 하에서 PF(point fidelity), NF(neighborhood fidelity), 및 안정성 지표를 사용하여 평가합니다.
  • 예측 정확도와 해설 품질의 변화를 평가하기 위해 일반적으로 학습된 기준선과 비교합니다.

실험 결과

연구 질문

  • RQ1Does ExpO-Fidelity improve the fidelity and stability of post-hoc explanations for black-box models?
  • RQ2Can ExpO regularization maintain or improve predictive accuracy while enhancing interpretability?
  • RQ3Do ExpO-regularized explanations generalize from training to test points?
  • RQ4Do human users find explanations from ExpO-regularized models more useful in a realistic task?

주요 결과

  • ExpO-Fidelity는 여러 경우에서 해석가능성 지표를 25% 이상, 최대 50% 이상으로 자주 향상시킵니다.
  • ExpO-정규화된 모델은 대개 비정규화 모델과 비슷하거나 약간 개선된 테스트 정확도를 보입니다.
  • ExpO-1D-Fidelity 역시 해석가능성 지표를 향상시키며 정확도의 평균 향상은 더 작습니다.
  • ExpO-정규화된 모델의 사후 설명(LIME, MAPLE)은 더 간단하고 테스트 포인트에서 모델 동작에 더 충실합니다.
  • 사용자 연구에서 참가자들은 ExpO 설명으로 과제를 더 적은 단계로 완료했고 더 유용하고 기대된 모델 동작과 더 잘 맞는다고 인식했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.