[논문 리뷰] Feature relevance quantification in explainable AI: A causal problem
이 논문은 특징 관련성을 관측적 조건부가 아닌 인터벤션(do-operator) 마진으로 정량화해야 하며, 이러한 선택 하에서 Shapley 값이 어떻게 작동하는지 분석하고 조건부 기대치를 근사로 사용하는 SHAP를 비판한다.
We discuss promising recent contributions on quantifying feature relevance using Shapley values, where we observed some confusion on which probability distribution is the right one for dropped features. We argue that the confusion is based on not carefully distinguishing between observational and interventional conditional probabilities and try a clarification based on Pearl's seminal work on causality. We conclude that unconditional rather than conditional expectations provide the right notion of dropping features in contradiction to the theoretical justification of the software package SHAP. Parts of SHAP are unaffected because unconditional expectations (which we argue to be conceptually right) are used as approximation for the conditional ones, which encouraged others to `improve' SHAP in a way that we believe to be flawed.
연구 동기 및 목표
- 입력에 대한 모델 출력 기여를 할당할 때 특징을 제거하는 데 어떤 확률 분포가 적절한지 명확히 한다.
- 특징 기여에서 관찰적 조건부와 인터벤션 조건부를 구분한다.
- 전체 평균에 상대적인 기여에 대해 마진 기대값 대 조건부 기대값을 사용할 때 Shapley 값이 어떻게 작동하는지 평가한다.
- 인터벤션 기대값을 사용해 비감도나 대칭성 같은 기여의 이슈를 해결할 수 있는지 평가한다.
- SHAP 프레임워크가 인과적 관점과 어떻게 관련되는지, 어디에서 여전히 타당한지에 대한 지침을 제공한다.
제안 방법
- 고정된 기준선 하의 특징 기여의 공리적 기초를 검토하며, 통합 기울기와 Shapley 값을 포함한다.
- 두 후보 단순화 함수 f_T를 정의한다: (i) X_T = x_T에서의 조건부 기대값, (ii) 마진 기대값이고, 그리고 기여에 대한 함의를 논의한다.
- Pearl의 do-계산을 사용해 X_T에 대한 기여에서 인터벤션(do) 기대값이 마진 기대값에 대응한다는 것을 시사한다.
- 인과 도표를 제시하고 X_T에 대한 개입이 특정 의존성을 어떻게 깨뜨리는지 설명하며, 특징 제거의 올바른 개념으로 마진 기대값을 정당화한다.
- 조건부 기대값을 사용하면 비합리적인 기여가 산출될 수 있음을 증명한다(예: 무관한 특징에 대해 비영의 기여).
- KernelSHAP가 가중 최소자 제형으로 Shapley 값을 계산하는 방법과 실제로 g(T)를 어떻게 근사하는지(마진 대 조건) 설명한다.
실험 결과
연구 질문
- RQ1입력에 대한 모델 출력 기여 시 특징을 제거하는 올바른 확률적 개념은 무엇인가?
- RQ2관찰적 조건부와 인터벤션(do) 확률 중 어느가 기여에서 특징 관련성을 더 잘 포착하는가?
- RQ3기여가 마진 기대값 대비 조건부 기대값으로 정의될 때 Shapley 값은 어떻게 작동하는가?
- RQ4인터벤션 사고가 잘못된 민감도나 대칭성 위반과 같은 문제를 해결할 수 있는가?
- RQ5SHAP가 인과적 관점과 어떻게 관련되며, 개념적으로 타당한 부분과 결점이 어디인가?
주요 결과
- Marginal (interventional) 기대값은 do-연산과 일치하며 특징 간 차이를 기여하는 개념적으로 올바르다.
- 조건부 기대값 사용은 무관한 특징에 대해 비영의 기여를 생성할 수 있어 직관적 민감도에 어긋난다.
- SHAP의 커널 기반 근사는 마진 기대값을 근사하는 부분에서 대부분 영향을 받지 않지만, 조건부 기대값에 의존하는 접근은 개념적으로 결함이다.
- 경험적 시뮬레이션은 가우시안 및 실제 데이터 설정에서 마진 기반 Shapley 값이 진짜 기여를 더 잘 반영한다.
- 논문은 일부 SHAP 구성요소가 허용 가능한 근사이며, 다른 부분은 인과적 개입을 반영하도록 수정이 필요하다고 명확히 한다.
- 비인과적이거나 순수 관찰적 기여는 혼란 및 의존적 특징 분포로 인해 특징 영향력을 잘못 나타낼 위험이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.