Skip to main content
QUICK REVIEW

[논문 리뷰] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability

Dominik Galus, Julia Farganus|arXiv (Cornell University)|2026. 02. 10.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

XSPLAIN은 정확도를 유지하면서 공간 영역에 연결된 지역별 예시 기반 설명을 제공하는 3D Gaussian Splatting 분류를 위한 선행-해석 가능성 프레임워크를 도입합니다.

ABSTRACT

3D Gaussian Splatting (3DGS) has rapidly become a standard for high-fidelity 3D reconstruction, yet its adoption in multiple critical domains is hindered by the lack of interpretability of the generation models as well as classification of the Splats. While explainability methods exist for other 3D representations, like point clouds, they typically rely on ambiguous saliency maps that fail to capture the volumetric coherence of Gaussian primitives. We introduce XSPLAIN, the first ante-hoc, prototype-based interpretability framework designed specifically for 3DGS classification. Our approach leverages a voxel-aggregated PointNet backbone and a novel, invertible orthogonal transformation that disentangles feature channels for interpretability while strictly preserving the original decision boundaries. Explanations are grounded in representative training examples, enabling intuitive ``this looks like that'' reasoning without any degradation in classification performance. A rigorous user study (N=51) demonstrates a decisive preference for our approach: participants selected XSPLAIN explanations 48.4\% of the time as the best, significantly outperforming baselines $(p<0.001)$, showing that XSPLAIN provides transparency and user trust. The source code for this work is available at: https://github.com/Solvro/ml-splat-xai

연구 동기 및 목표

  • 3D Gaussian Splatting (3DGS) 표현에 대한 해석 가능한 분류 동기 부여.
  • 결정 경계를 보존하는 선행, 프로토타입 기반 설명 가능성 프레임워크 개발.
  • 공간적으로 기반된 설명을 가능하게 하는 보강된 보조(backbone)와 학습 가능한 직교 변환 사용.
  • 특징 채널별 대표 프로토타입을 검색하여 예시 기반 설명 제공.
  • 여러 3DGS 데이터세트에서 해석 가능성과 충실도를 평가하고 사후-기능 기준과 비교.”

제안 방법

  • 공간 구조를 보존하기 위한 보강 모듈을 갖춘 PointNet에서 영감을 받은 백본(보강 모듈 포함).
  • 두 단계 학습: 먼저 분류를 위해 백본을 학습하고; 두 번째로 백본을 고정시키고 해석 가능성을 위해 채널 분리를 위한 가역적 직교 특징 변환을 학습.
  • 채널별 활성 상위 값을 식별하고 대표 학습 예시를 프로토타입으로 검색하여 프로토타입 기반 설명을 제공.
  • 볼륨 보존 및 가역 매핑을 보장하기 위해 A가 비대칭인 skew-symmetric인 U를 통해 U = exp(A)로 구성하고, 분류기 가중치를 W' = W U^T로 조정하여 결정 경계를 보존.
  • 프로토타입 발견 및 채널-별 분리성을 보장하기 위한 순수성 지표(채널 활성의 최대값이 위치한 보셀(voxel)와 보셀 노름에 대한 채널 활성의 비율).
  • 활성화와 보셀 밀도 간의 KL 발산을 통해 활성화를 보셀 밀도에 정렬하기 위한 동적 프로토타입 업데이트 및 백본 학습 중 밀도 인식 정규화.”],
  • research_questions_choices?
  • research_questions - Can XSPLAIN provide faithful, interpretable explanations for 3D Gaussian Splatting classifications without degrading accuracy? - Does a two-stage, ante-hoc prototype-based approach offer more stable and human-friendly explanations than end-to-end or post-hoc methods? - Do disentangled feature channels align with semantically coherent object parts across 3DGS instances? - Are prototype-based explanations robust and localized within meaningful spatial regions of the 3DGS representation?
Figure 1 : XSPLAIN provides ante-hoc, prototype-based explanations for 3D Gaussian Splat classification. A PointNet-based classifier predicts the object category from Gaussian Splat representations, while identifying the most influential voxel regions that drive the decision. Explanations are genera
Figure 1 : XSPLAIN provides ante-hoc, prototype-based explanations for 3D Gaussian Splat classification. A PointNet-based classifier predicts the object category from Gaussian Splat representations, while identifying the most influential voxel regions that drive the decision. Explanations are genera

실험 결과

연구 질문

  • RQ1XSPLAIN이 정확도를 저하시키지 않으면서 3D Gaussian Splatting 분류에 대해 충실하고 해석 가능한 설명을 제공할 수 있는가?
  • RQ2두 단계의 선행 프로토타입 기반 접근법이 엔드-투-엔드 혹은 사후-기반 방법보다 더 안정적이고 인간 친화적인 설명을 제공하는가?
  • RQ3해제된 특성 채널이 3DGS 인스턴스 간에 의미적으로 일관된 객체 부분과 일치하는가?
  • RQ4프로토타입 기반 설명이 3DGS 표현의 의미 있는 공간 영역에서 강건하고 국소화되는가?

주요 결과

  • XSPLAIN은 분류 정확도를 유지하면서(고정된 백본의 예에서 ShapeSplat에서 0.880) 지역 기반의 설명을 제공합니다.
  • 밀도 인식 정규화는 활성화를 기하학적으로 의미 있는 밀집 영역으로 편향시켜 희소한 이상치가 아니라 대밀도 영역에 프로토타입의 순도를 개선합니다.
  • 직교적이고 가역적인 특징 회전을 통해 결정 경계를 보존하고 프로토타입 검색을 위한 해석 가능한 채널 분리를 가능하게 합니다.
  • 프로토타입 기반 설명은 적응된 사후 기준(PointSHAP, LIME)보다 일관성과 사용자 선호도에서 우수합니다(N=51, p<0.001).
  • 상위 활성화 보셀을 제거하면 정확도가 감소하는 것으로 나타나(예: Toys 데이터에서 6.82%), 설명의 충실성을 검증합니다.
Figure 2 : Overview of the XSPLAIN architecture A) The classification backbone is a modified PointNet architecture extended by a voxel aggregation layer, producing structured latent representations at the voxel level from Gaussian Splat inputs. B) An attachable disentangling module learns an inverti
Figure 2 : Overview of the XSPLAIN architecture A) The classification backbone is a modified PointNet architecture extended by a voxel aggregation layer, producing structured latent representations at the voxel level from Gaussian Splat inputs. B) An attachable disentangling module learns an inverti

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.