Skip to main content
QUICK REVIEW

[논문 리뷰] The Impact of Machine Learning Uncertainty on the Robustness of Counterfactual Explanations

Christodoulou, Leonidas, Chang Sun|arXiv (Cornell University)|2026. 01. 20.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

본 논문은 ML 모델의 aleatoric 및 epistemic 불확실성이 근접 기반의 반사실적 설명의 강건성에 미치는 영향을 합성 및 실제 표 형 데이터셋에서 조사하고, 정확도 저하가 작아도 설명이 불안정해질 수 있음을 보여준다.

ABSTRACT

Counterfactual explanations are widely used to interpret machine learning predictions by identifying minimal changes to input features that would alter a model's decision. However, most existing counterfactual methods have not been tested when model and data uncertainty change, resulting in explanations that may be unstable or invalid under real-world variability. In this work, we investigate the robustness of common combinations of machine learning models and counterfactual generation algorithms in the presence of both aleatoric and epistemic uncertainty. Through experiments on synthetic and real-world tabular datasets, we show that counterfactual explanations are highly sensitive to model uncertainty. In particular, we find that even small reductions in model accuracy - caused by increased noise or limited data - can lead to large variations in the generated counterfactuals on average and on individual instances. These findings underscore the need for uncertainty-aware explanation methods in domains such as finance and the social sciences.

연구 동기 및 목표

  • ML 불확실성의 서로 다른 원천(aleatoric 및 epistemic)이 근접성 기반 반사실적 설명(CE)의 강건성에 어떤 영향을 미치는지 평가한다.
  • 실세계 표 형 데이터에서 불확실성 하에서 CE의 안정성을 이해하기 위해 여러 ML 모델과 CE 알고리즘을 비교한다.
  • 금융 및 사회과학 등 고위험 도메인에서 불확실성 인지를 고려한 설명 가능성에 대한 실용적 지침을 제공한다.

제안 방법

  • 통제된 노이즈 하에서 CE 강건성을 연구하기 위해 합성 및 실제 표 형 데이터셋을 사용한다.
  • 다양한 분류기(logistic regression, Bayesian logistic regression, random forests, neural networks) 및 CE 방법(DiCE, NICE, MILP 기반, RL 기반)을 데이터셋에 따라 평가한다.
  • 비가중 L1 거리의 가중 혼합 공간 정의 및 계산을 통해 CE 강건성을 정량화하고 비교 가능하도록 정규화를 포함한다.
  • 이해관계자 관점에서 FN, TN 및 전체 정확도에 걸친 CE 성능을 분석한다.

실험 결과

연구 질문

  • RQ1알래토릭(aleatoric) 및 에피스템릭(epistemic) 불확실성이 근접성 기반 반사실적 설명의 강건성에 어떻게 영향을 미치는가?
  • RQ2더 높은 예측 정확도를 가진 모델이 항상 다양한 CE 방법에서 더 강건한 반사실적 설명을 제공하는가?
  • RQ3증가하는 노이즈 하에서 가장 안정적인 반사실적 설명을 보이는 ML-CE 방법 조합은 무엇인가?
  • RQ4합성 데이터세트와 실제 표 데이터세트(German Credit, Adult Income, Give Me Some Credit) 간 CE 강건성 패턴은 어떻게 다른가?

주요 결과

  • 반사실적 설명은 모델 불확실성에 매우 민감하며, 작은 정확도 저하가 종종 큰 CE 변화로 이어진다.
  • 더 높은 분류기 정확도가 더 강건한 CE를 보장하지 못하며, 예측 성능만으로 모델을 선택하는 일반적 관행에 도전한다.
  • 데이터셋의 복잡도와 특징 차원에 따라 CE 강건성이 달라지며, 상황에 따라 일부 ML-CE 조합이 더 안정적이다.
  • 다른 CE 방법(DiCE, NICE, MILP, RL)과 분류기(LR, BLR, RF, NN)는 서로 다른 강건성을 보이며, 모든 설정에서 단일 조합이 지배하지 않는다.
  • 본 연구는 확장 가능한 강건성 프레임워크와 분석을 재현하고 확장하기 위한 공개 코드/데이터를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.