[論文レビュー] XSPLAIN: XAI-enabling Splat-based Prototype Learning for Attribute-aware INterpretability
XSPLAIN は、正確さを保持しつつ、空間領域に結びついた局所的な例ベースの説明を提供する ante-hoc プロトタイプベース解釈可能性フレームワークを 3D Gaussian Splatting 分類に導入する。
3D Gaussian Splatting (3DGS) has rapidly become a standard for high-fidelity 3D reconstruction, yet its adoption in multiple critical domains is hindered by the lack of interpretability of the generation models as well as classification of the Splats. While explainability methods exist for other 3D representations, like point clouds, they typically rely on ambiguous saliency maps that fail to capture the volumetric coherence of Gaussian primitives. We introduce XSPLAIN, the first ante-hoc, prototype-based interpretability framework designed specifically for 3DGS classification. Our approach leverages a voxel-aggregated PointNet backbone and a novel, invertible orthogonal transformation that disentangles feature channels for interpretability while strictly preserving the original decision boundaries. Explanations are grounded in representative training examples, enabling intuitive ``this looks like that'' reasoning without any degradation in classification performance. A rigorous user study (N=51) demonstrates a decisive preference for our approach: participants selected XSPLAIN explanations 48.4\% of the time as the best, significantly outperforming baselines $(p<0.001)$, showing that XSPLAIN provides transparency and user trust. The source code for this work is available at: https://github.com/Solvro/ml-splat-xai
研究の動機と目的
- 3D Gaussian Splatting (3DGS) 表現の解釈可能な分類を動機づける。
- 意思決定境界を保持する ante-hoc のプロトタイプベースの explainability フレームワークを開発する。
- 空間的に grounded な説明を可能にするボクセル集約バックボーンと学習可能な直交変換を活用する。
- 特徴チャネルごとに代表的なトレーニングプロトタイプを取得して exemplars-based な説明を提供する。
- 複数の 3DGS データセットで解釈可能性と忠実性を評価し、後置(post-hoc)ベースラインと比較する。)
提案手法
- PointNet に触発され、空間構造を保持するボクセル集約モジュールを持つバックボーン。
- 二段階学習:まずバックボーンを分類のために学習;次にバックボーンを固定し、チャネルを分離するための可逆的・直交な特徴変換を学習。
- チャネルごとのトップ活性化を同定し、代表的なトレーニング例をプロトタイプとして取得することによるプロトタイプベースの説明。
- 直交変換 U は U = exp(A) により構築され、A は捻る対称で体積保存・可逆マッピングを保証する;分類器の重みは W' = W U^T に調整され、意思決定境界を保持する。
- チャネル毎の分離を保証するためのプロトタイプ発見と純度指標(ボクセル内の最大活性化、チャネル活性化のボクセルノルム比)。
- バックボーンの学習中に動的なプロトタイプ更新と密度対応の正則化を用い、活性化をボクセル密度と整合させる(活性化と密度分布間のKL発散)。

実験結果
リサーチクエスチョン
- RQ1XSPLAIN は、正確性を下げることなく、3D Gaussian Splatting 分類の忠実で解釈可能な説明を提供できるか。
- RQ2二段階の ante-hoc プロトタイプベースアプローチは、エンドツーエンドまたは post-hoc 手法よりも安定し、人間にとって理解しやすい説明を提供するか。
- RQ3分離された特徴チャネルは、3DGS の事例全体で意味的に一貫したオブジェクト部位に一致するか。
- RQ4プロトタイプベースの説明は、意味のある空間領域内で頑健かつ局所化されているか。
主な発見
| Dataset | Model | Accuracy |
|---|---|---|
| Toys | PointNet | 0.865 |
| Toys | PointNet++ | 0.934 |
| Toys | PointNeXt | 0.898 |
| Toys | PointMLP | 0.870 |
| Toys | PointNet + Vox Agg | 0.899 |
| MACGS | PointNet | 0.873 |
| MACGS | PointNet++ | 0.871 |
| MACGS | PointNeXt | 0.805 |
| MACGS | PointMLP | 0.898 |
| MACGS | PointNet + Vox Agg | 0.818 |
| Shapesplat | PointNet | 0.869 |
| Shapesplat | PointNet++ | 0.875 |
| Shapesplat | PointNeXt | 0.875 |
| Shapesplat | PointMLP | 0.803 |
| Shapesplat | PointNet + Vox Agg | 0.880 |
- XSPLAIN は、凍結されたバックボーンを用いた ShapeSplat で 0.880 の例を示すなど、競争力のある分類精度を維持しつつ局所的な領域基盤の説明を提供する。
- 密度対応の正則化は、活性化を幾何学的に意味がある密な領域へ偏らせ、希薄な外れ値よりも純度を向上させる。
- 直交で可逆な特徴回転は意思決定境界を保持し、プロトタイプ取得のための解釈可能なチャネル分離を可能にする。
- プロトタイプベースの説明は、適応された post-hoc ベースライン(PointSHAP、LIME)と比較して、一貫性とユーザの好みにおいてユーザ study で上回る(N=51, p<0.001)。
- 削除テストにより、トップ活性化ボクセルを削除すると精度が低下することが示され、説明の忠実性を裏付ける(例:Toys データで 6.82%)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。