[논문 리뷰] Shapley-based explainability on the data manifold.
이 논문은 표준 샤플리 값의 핵심적인 결함—상관관계가 있는 특징을 가정하지 않는다는 점—을 해결하기 위해 생성 모델링 또는 지도 학습을 활용하여 데이터 다양체 위에 위치한 데이터 보정을 수행하는 다양체 인식 샤플리 설명 프레임워크를 제안한다. 이 방법은 고차원적이고 상관관계가 있는 데이터에서 흔히 발생하는 부당한, 오해를 유도하는, 또는 해석이 불가능한 설명을 제거하여 모델의 해석 가능성과 신뢰성을 크게 향상시킨다.
Explainability in machine learning is crucial for iterative model development, compliance with regulation, and providing operational nuance to model predictions. Shapley values provide a general framework for explainability by attributing a model's output prediction to its input features in a mathematically principled and model-agnostic way. However, practical implementations of the Shapley framework make an untenable assumption: that the model's input features are uncorrelated. In this work, we articulate the dangers of this assumption and introduce two solutions for computing Shapley explanations that respect the data manifold. One solution, based on generative modelling, provides flexible access to on-manifold data imputations, while the other directly learns the Shapley value function in a supervised way, providing performance and stability at the cost of flexibility. While the commonly used ``off-manifold'' Shapley values can (i) break symmetries in the data, (ii) give rise to misleading wrong-sign explanations, and (iii) lead to uninterpretable explanations in high-dimensional data, our approach to on-manifold explainability demonstrably overcomes each of these problems.
연구 동기 및 목표
- 실제 세계의 데이터가 상관관계가 있음에도 불구하고 상관관계가 없는 입력 특징을 가정하는 표준 샤플리 값 설명의 근본적인 결함을 해결하기 위해.
- 고차원적이고 상관관계가 있는 특징 공간에서 대칭성 파괴, 잘못된 부호의 기여도 할당, 해석이 불가능한 설명을 방지하기 위해.
- 내재된 데이터 다양체를 존중하는 모델에 종속되지 않은, 수학적으로 타당한 특징 기여도 할당 방법을 개발하기 위해.
- 실제 기계학습 응용에서 해석 가능성과 공정성을 유지하면서 다양체 외부의 샤플리 값에 대한 실용적이고 안정적인 대안을 제공하기 위해.
제안 방법
- 특징 협동체에 대해 현실적인, 다양체 위의 데이터 보정을 생성하는 생성 모델링을 사용하여, 반사적 입력이 데이터 분포 내에 있도록 보장한다.
- 조건부 생성 모델을 활용하여 입력 특징의 다양체 위의 변형에 따른 기대 모델 출력을 추정한다.
- 다양체 기반 데이터를 사용하여 샤플리 값을 직접 예측하는 서rogate 모델을 훈련시켜, 융통성의 손실을 감수함으로써 안정성과 성능을 향상시킨다.
- 모든 협동체와 마진 기여도가 관측된 데이터 패턴과 일관되도록, 다양체 정규화된 데이터 공간에서 샤플리 값 프레임워크를 적용한다.
- 통계적으로 타당한 특징 구성 집합으로 가능한 구성 설정의 집합을 제약하여 데이터 다양체를 샤플리 계산에 통합한다.
실험 결과
연구 질문
- RQ1상관관계가 있는 특징이 존재할 경우 다양체 외부의 샤플리 값은 어떻게 실패하며, 어떤 특정한 오류가 발생하는가?
- RQ2다양체 위의 데이터 보정은 샤플리 기반 설명의 신뢰성과 해석 가능성에 어떻게 기여하는가?
- RQ3다양체 위의 샤플리 추정에서 생성 모델링과 지도 학습은 안정성, 정확도, 융통성 측면에서 어떻게 비교되는가?
- RQ4다양체 인식 샤플리 값은 대칭성 파괴 및 잘못된 부호의 기여도 문제를 어느 정도 제거하는가?
주요 결과
- 다양체 외부의 샤플리 값은 데이터의 대칭성을 깨뜨려 일관성 없거나 직관에 어긋나는 특징 기여도 할당을 초래할 수 있다.
- 다양체 외부의 설명은 자주 잘못된 부호의 기여도 할당을 생성한다. 즉, 특징이 실제 영향과 반대 방향으로 영향을 미친다고 나타난다.
- 다양체 위의 샤플리 값은 모든 반사적 입력이 현실적이며 데이터 분포와 일관되도록 보장함으로써 이러한 오류를 제거한다.
- 생성 모델링 방법은 데이터 구조를 유지하고 부당한 설명을 줄이는 분포 인식 보정을 가능하게 하여 융통성을 제공한다.
- 지도 학습 대안은 새로운 데이터 분포에 대한 적응성은 낮추지만, 더 안정적이고 정확한 샤플리 추정을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.