[논문 리뷰] Theoretical Behavior of XAI Methods in the Presence of Suppressor Variables
이 논문은 간단한 2차원 선형 모델과 억제자 변수(suppressor)에서 인기 있는 XAI 방법들이 어떻게 작동하는지 분석적으로 표현식을 도출하고, 특징들이 상관관계가 있을 때 억제자에게 비제로 중요도를 할당하는 경우가 많아 설명의 정확성에 도전한다.
In recent years, the community of 'explainable artificial intelligence' (XAI) has created a vast body of methods to bridge a perceived gap between model 'complexity' and 'interpretability'. However, a concrete problem to be solved by XAI methods has not yet been formally stated. As a result, XAI methods are lacking theoretical and empirical evidence for the 'correctness' of their explanations, limiting their potential use for quality-control and transparency purposes. At the same time, Haufe et al. (2014) showed, using simple toy examples, that even standard interpretations of linear models can be highly misleading. Specifically, high importance may be attributed to so-called suppressor variables lacking any statistical relation to the prediction target. This behavior has been confirmed empirically for a large array of XAI methods in Wilming et al. (2022). Here, we go one step further by deriving analytical expressions for the behavior of a variety of popular XAI methods on a simple two-dimensional binary classification problem involving Gaussian class-conditional distributions. We show that the majority of the studied approaches will attribute non-zero importance to a non-class-related suppressor feature in the presence of correlated noise. This poses important limitations on the interpretations and conclusions that the outputs of these XAI methods can afford.
연구 동기 및 목표
- 특성 중요도의 데이터 기반 정의를 동기화하고, 존재하는 억제자 변수가 있을 때 XAI 설명의 한계를 강조한다.
- 상관된 노이즈를 통해 억제자 특징을 도입하는 해석 가능한 2차원 선형 데이터 생성 프로세스를 개발한다.
- 여러 인기 있는 XAI 방법들에 대한 해석적 표현식을 도출하여 억제자 특징에 비제로 중요도를 부여하는지 평가한다.
- 제어된 데이터 생성하에 다양한 설명 패러다임(그라디언트 기반, 패턴 기반, Shapley 값, 대안적 인과 사례(counterfactuals) 등)을 비교한다.
제안 방법
- 신호 특징과 억제자 특징을 갖는 2차원 선형 생성 모델을 정의한다: x = a z + η, y = z 및 η ~ N(0, Σ).
- 분류를 위한 베이어스 최적 선형 판별기와 그 가중치를 계산한다.
- 모형 하에서 Gradient, Pattern/Haufe 변환, Faithfulness, Pixel Flipping, Permutation Feature Importance, Partial Dependency, Shapley 값, Counterfactuals, FIRM, Integrated Gradients, LIME, 및 Saliency-LRP/DTD를 포함한 다수의 XAI 방법에 대한 해석적 표현식을 도출한다.
- 데이터 기반 중요도 정의를 사용: 특성은 Y와 통계적으로 연관될 때 중요하다고 보고, 억제자가 비정보적이면서도 설명에 영향을 줄 수 있음을 보인다.
- 특성 상관 c와 분산 s1^2, s2^2가 방법들 전반에 걸쳐 억제자 특징에 대한 귀속에 어떤 영향을 미치는지 분석한다.

실험 결과
연구 질문
- RQ1인기 있는 XAI 방법들이 Y와 통계적으로 독립적인 억제자 변수에 비제로 중요도를 부여하는가?
- RQ2정보 특징과 억제자 특징 간의 상관관계가 서로 다른 XAI 방법들이 산출하는 설명에 어떻게 영향을 미치는가?
- RQ3데이터 기반 특성 중요도 정의가 방법들 간에 진정으로 정보가 있는 특징과 억제자를 구별할 수 있는가?
- RQ4억제자 변수가 존재할 때 일반적인 XAI 접근 방식의 이론적 한계는 무엇인가?
- RQ5다른 설명들(예: 서로 다른 값 함수의 Shapley 값, counterfactuals)이 억제자 상황에서 어떻게 작동하는가?
주요 결과
- 피처 간 상관이 있을 때 대부분의 분석된 XAI 방법은 억제자 특징에 비제로 중요도를 할당하여 데이터 기반 중요도 정의를 위반한다.
- Haufe 패턴 변환은 베이어스 최적 분류기에 대해 억제자 영향을 제거할 수 있지만, 일반 그라디언트나 다수의 후향(포스트-핵) 방법과는 다르다.
- Pixel flipping 및 permutation 기반 중요도는 보통 억제자 중요도를 부여하는 경향이 있으며, 특히 상관 노이즈 하에서 신중히 제어되지 않으면 그렇다.
- Partical Dependency Plots는 상관으로 인해 억제자에 대한 명시적 의존성을 보일 수 있어, PD 플롯의 설명으로서의 한계를 드러낸다.
- Shapley 값은 선택된 값 함수에 의존한다; R^2 기반 값으로는 억제자가 중요하지 않게 될 수 있지만, 다른 형식은 이를 중요하게 볼 수 있다.
- Integrated Gradients, LIME, 그리고 counterfactual 설명은 억제자 개입을 시사할 수 있으며, 억제자 시나리오에서의 해석 가능성 위험을 강조한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.