[论文解读] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability
XSPLAIN 引入了一种 ante-hoc、基于原型的解释框架用于3D Gaussian Splatting 分类,在保持准确性的同时提供与空间区域绑定的局部、基于示例的解释。
3D Gaussian Splatting (3DGS) has rapidly become a standard for high-fidelity 3D reconstruction, yet its adoption in multiple critical domains is hindered by the lack of interpretability of the generation models as well as classification of the Splats. While explainability methods exist for other 3D representations, like point clouds, they typically rely on ambiguous saliency maps that fail to capture the volumetric coherence of Gaussian primitives. We introduce XSPLAIN, the first ante-hoc, prototype-based interpretability framework designed specifically for 3DGS classification. Our approach leverages a voxel-aggregated PointNet backbone and a novel, invertible orthogonal transformation that disentangles feature channels for interpretability while strictly preserving the original decision boundaries. Explanations are grounded in representative training examples, enabling intuitive ``this looks like that'' reasoning without any degradation in classification performance. A rigorous user study (N=51) demonstrates a decisive preference for our approach: participants selected XSPLAIN explanations 48.4\% of the time as the best, significantly outperforming baselines $(p<0.001)$, showing that XSPLAIN provides transparency and user trust. The source code for this work is available at: https://github.com/Solvro/ml-splat-xai
研究动机与目标
- 为3D Gaussian Splatting (3DGS) 表示形式的可解释分类提供动机。
- 开发一个 ante-hoc、基于原型的可解释性框架,以保持决策边界。
- 利用体素聚合骨干网络和一个可学习的正交变换实现空间上有据可依的解释。
- 通过在每个特征通道检索代表性训练原型来提供基于示例的解释。
- 在多个3DGS数据集上评估可解释性与保真度,并与事后基线方法进行比较。
提出的方法
- 受 PointNet 启发的骨干网络,配备体素聚合模块以保留空间结构。
- 分两阶段训练:第一阶段训练骨干用于分类;第二阶段冻结骨干并学习一个可逆的、正交的特征变换以分离通道以实现可解释性。
- 通过识别每个通道的顶层激活并检索代表性训练样本作为原型来实现基于原型的解释。
- 通过 U = exp(A) 构建正交变换,其中 A 为斜对称矩阵,以确保体积保持且映射可逆;为了保持决策边界,分类器权重为 W' = W U^T。
- 通过原型发现和纯度度量来确保通道级的解耦(在一个体素内的最大激活、通道激活与体素范数的比值)。
- 在骨干训练过程中引入动态原型更新和密度感知正则化,以使激活与体素密度对齐(激活分布与密度分布之间的 KL 散度)。

实验结果
研究问题
- RQ1XSPLAIN 能否在不降低准确性的前提下,为3D Gaussian Splatting 分类提供真实且可解释的解释?
- RQ2两阶段的 ante-hoc 基于原型的方法是否提供比端到端或事后方法更稳定、对人更友好的解释?
- RQ3解耦后的特征通道是否与跨 3DGS 实例的语义上连贯的物体部件对齐?
- RQ4基于原型的解释是否在3DGS 表示的有意义空间区域内具有鲁棒性和局部性?
主要发现
| 数据集 | 模型 | 准确率 |
|---|---|---|
| Toys | PointNet | 0.865 |
| Toys | PointNet++ | 0.934 |
| Toys | PointNeXt | 0.898 |
| Toys | PointMLP | 0.870 |
| Toys | PointNet + Vox Agg | 0.899 |
| MACGS | PointNet | 0.873 |
| MACGS | PointNet++ | 0.871 |
| MACGS | PointNeXt | 0.805 |
| MACGS | PointMLP | 0.898 |
| MACGS | PointNet + Vox Agg | 0.818 |
| Shapesplat | PointNet | 0.869 |
| Shapesplat | PointNet++ | 0.875 |
| Shapesplat | PointNeXt | 0.875 |
| Shapesplat | PointMLP | 0.803 |
| Shapesplat | PointNet + Vox Agg | 0.880 |
- XSPLAIN 在保持竞争性分类准确性的同时提供局部、区域绑定的解释(示例在 ShapeSplat 上的冻结骨干达到 0.880)。
- 密度感知正则化通过将激活偏向几何上有意义、密集的区域而非稀疏的离群值,从而提升原型纯度。
- 正交、可逆的特征旋转保持决策边界并实现对原型检索的可解释通道解耦。
- 在用户研究(N=51,p<0.001)中,基于原型的解释在连贯性和用户偏好方面优于改编的事后基线(PointSHAP、LIME)。
- 删除测试表明移除最高激活的体素会降低准确性(例如 Toys 数据集下降 6.82%),验证了解释的保真性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。