Skip to main content
QUICK REVIEW

[논문 리뷰] Preserving Causal Constraints in Counterfactual Explanations for Machine Learning Classifiers

Divyat Mahajan, Chenhao Tan|arXiv (Cornell University)|2019. 12. 06.
Explainable Artificial Intelligence (XAI)참고 문헌 16인용 수 101
한 줄 요약

이 논문은 반사실 설명에 대한 전역(global) 및 국부(local) 가능성을 정의하고, 인과적 근접성 규제와 인과 제약 하에서 가능한 반사실을 생성하는 VAE 기반 방법을 제시하며, 가능성이 알려지지 않은 경우에는 사용자 피드백을 활용한다.

ABSTRACT

To construct interpretable explanations that are consistent with the original ML model, counterfactual examples---showing how the model's output changes with small perturbations to the input---have been proposed. This paper extends the work in counterfactual explanations by addressing the challenge of feasibility of such examples. For explanations of ML models in critical domains such as healthcare and finance, counterfactual examples are useful for an end-user only to the extent that perturbation of feature inputs is feasible in the real world. We formulate the problem of feasibility as preserving causal relationships among input features and present a method that uses (partial) structural causal models to generate actionable counterfactuals. When feasibility constraints cannot be easily expressed, we consider an alternative mechanism where people can label generated CF examples on feasibility: whether it is feasible to intervene and realize the candidate CF example from the original input. To learn from this labelled feasibility data, we propose a modified variational auto encoder loss for generating CF examples that optimizes for feasibility as people interact with its output. Our experiments on Bayesian networks and the widely used ''Adult-Income'' dataset show that our proposed methods can generate counterfactual explanations that better satisfy feasibility constraints than existing methods.. Code repository can be accessed here: extit{https://github.com/divyat09/cf-feasibility}

연구 동기 및 목표

  • 구조적 인과 모델(SCM)을 기준으로 반사실 설명에 대한 전역(global) 및 국부(local) 가능성을 정의한다.
  • 반사실 생성을 하는 동안 인과 관계를 보존하기 위한 인과적 근접 손실(causal proximity loss)을 도입한다.
  • 원인 제약이 명시되지 않은 경우 사용자 피드백으로 가능성을 학습하는 VAE 기반 방법(Example-Based CF)을 제안한다.
  • Adult-Income 및 베이지안 네트워크 데이터셋에서 인과 인식 방법이 더 실현 가능한 반사실을 생성함을 시연한다.
  • 제안된 방법들이 일부 기존 접근법에 비해 반사실 생성을 더 빠르게 수행함을 보인다.

제안 방법

  • 기저 구조적 인과 모델(SCM)에 의해 도출되는 제약으로 가능성을 형식화한다.
  • CF 생성 중 인과 관계를 보존하는 거리 항으로 DistCausal을 제안한다.
  • 전체 SCM이 알려지지 않은 경우를 위한 실용적 근사로 단항(일항) 및 이항 가능성 제약을 제공한다.
  • 부분 SCM을 갖는 모델 기반 CF(model-based CF)와 가능성을 포함하는 모델 근사 CF(model-approx CF)를 도입한다.
  • Example-Based CF를 VAE를 사용해 CF를 생성하고, 오라클을 통한 사용자 피드백으로 가능성을 학습하도록 개발한다.
  • VAE 목표함수에 KL 항을 포함하여 타당성(validity), 근접성(proximity), 가능성을 결합한 손실을 최적화한다.

실험 결과

연구 질문

  • RQ1반사실 설명이 현실 세계에서 가능하게 유지되도록 인과 제약을 어떻게 준수할 수 있는가?
  • RQ2CF 생성 동안 인과 가능성을 강제하는 실용적인 근접 손실은 무엇인가?
  • RQ3전체 인과 모델이 이용 가능하지 않을 때 사용자 피드백을 이용해 가능성 제약을 학습할 수 있는가?
  • RQ4인과 인식이 있는 CF 방법이 기존 접근법보다 더 실현 가능한 반사실과 유사한 타당성을 산출하는가?
  • RQ5제안된 방법들이 실제 및 합성 데이터셋(Adult, Simple-BN, Sangiovese)에서 가능성과 효율성 측면에서 어떤 성능을 보이는가?

주요 결과

  • 인과 가능성을 포함하는 방법이 데이터셋 전반에서 가능성 점수에서 기준 방법보다 우수하다.
  • 모든 제안된 가능성 인식 방법은 테스트 데이터셋에서 목표 클래스 타당성을 완벽하게 달성한다.
  • 모델 기반 CF, 모델 근사 CF, 그리고 Example-Based CF는 일반적으로 CEM보다 제약 가능성 점수가 더 높다.
  • Example-Based CF는 레이블이 달린 예제로부터 가능성을 학습하고 더 많은 라벨로 가능성을 개선할 수 있다.
  • 알려진 인과 구조를 가진 데이터셋에서 이들 방법은 경쟁력 있거나 우수한 인과 경계 점수를 보인다.
  • 제안된 방법은 일부 기존 최적화 기반 기준선보다 반사실 생성 속도가 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.