[논문 리뷰] G2P: Gaussian-to-Point Attribute Alignment for Boundary-Aware 3D Semantic Segmentation
G2P는 2D 감독 없이 3D에서 appearance-guided, boundary-aware semantic segmentation을 가능하게 하는 3D Gaussian Splatting 속성을 포인트 클라우드에 보강합니다. 기하학을 보존하면서 가우시안 속성을 포인트로 전달하여 구별력을 향상시키고, 특히 기하학적으로 애매한 클래스에서 효과적입니다.
Semantic segmentation on point clouds is critical for 3D scene understanding. However, sparse and irregular point distributions provide limited appearance evidence, making geometry-only features insufficient to distinguish objects with similar shapes but distinct appearances (e.g., color, texture, material). We propose Gaussian-to-Point (G2P), which transfers appearance-aware attributes from 3D Gaussian Splatting to point clouds for more discriminative and appearance-consistent segmentation. Our G2P address the misalignment between optimized Gaussians and original point geometry by establishing point-wise correspondences. By leveraging Gaussian opacity attributes, we resolve the geometric ambiguity that limits existing models. Additionally, Gaussian scale attributes enable precise boundary localization in complex 3D scenes. Extensive experiments demonstrate that our approach achieves superior performance on standard benchmarks and shows significant improvements on geometrically challenging classes, all without any 2D or language supervision.
연구 동기 및 목표
- 희소 포인트 클라우드에서 appearance cues가 구별에 필요한 기하학적 편향을 동기로 삼아 해결한다.
- 기하와 appearance를 Gaussian Splatting 속성으로 결합하는 통합 3D 표현을 제안한다.
- Gaussian-to-Point 증강을 개발하여 Gaussians를 포인트와 정렬하되 기하를 변경하지 않는다.
- 경계 위치화를 위한 Gaussian 스케일을 활용하고, appearance 지도를 위한 불투명도를 도입한다.
- appearance-guided 학습을 가능하게 하는 distillation 메커니즘과 경계-의식 학습 신호를 활용한다.
제안 방법
- Gaussian-to-Point Feature Augmentation: 거리 기반의 비등방성 인식 Mahalanobis 거리를 사용하여 Gaussians를 포인트와 정렬하고 각 포인트에 Gaussian 유도 스케일과 불투명도를 보강한다.
- GS Primitives-guided Learning: 사전 학습된 appearance 인코더로부터 appearance cues를 3D 분할 모델로 증류하여 의미 표현의 안정성을 확보한다.
- Scale-based Boundary Extraction: 집계된 Gaussian 스케일 크기를 사용하여 경계 가짜 라벨을 생성하고 객체 경계를 정제한다.
- Appearance Encoder Pre-training: 증강된 포인트 표현에 대해 자기지도 방식(Sonata-based)으로 appearance 인코더를 사전 학습하고 분할 백본으로 증류한다.
- Boundary and Semantic Supervision: 의미 라벨, 경계 가짜 라벨 및 appearance 증류 손실을 공동 목표로 학습한다.
- Inference remains purely on 3D point data, relying on the learned distillation and augmented features without requiring cross-modal inputs.
실험 결과
연구 질문
- RQ13D Gaussian Splatting 속성을 포인트 클라우드에 효과적으로 정렬하여 기하를 바꾸지 않으면서 appearance 신호로 보강할 수 있는가?
- RQ2Gaussian 유도 스케일과 불투명도가 기하학적으로 애매한 객체의 경계 위치화 및 의미 구별을 향상시키는가?
- RQ33D Gaussian 기반 교사로부터의 appearance 증류가 외부 감독 없이 3D 분할 성능을 향상시키는가?
주요 결과
| 방법 | 장소 | mIoU | mAcc | OA |
|---|---|---|---|---|
| MinkUNet † [ 7 ] | CVPR’19 | 72.3 | 80.2 | 90.0 |
| OctFormer † [ 48 ] | TOG’23 | 74.3 | 82.6 | 90.9 |
| PT v3 † [ 52 ] | CVPR’24 | 77.0 | 84.3 | 92.1 |
| UniPre3D ∗ [ 49 ] | CVPR’25 | 77.6 | 85.0 | 92.1 |
| ODIN (Swin-B) ∗ [ 20 ] | CVPR’24 | 77.8 | – | – |
| BFANet † [ 63 ] | CVPR’25 | 77.3 | 84.1 | 92.2 |
| G2P (Ours) | – | 78.4 | 85.2 | 92.5 |
- G2P는 ScanNet v2 v2에서 validation 세트에서 mIoU 78.4, mAcc 85.2, OA 92.5 (GS-guided)와 같은 최첨단 수준의 성능을 달성한다.
- G2P는 기하학적으로 도전적인 클래스에서 강력한 Baseline 대비 상당한 이점을 보인다.
- Ablations confirm that both boundary guidance and appearance distillation contribute to improvements, with the combination yielding the best results.
- On ScanNet200, G2P attains 35.5 mIoU, competitive with BFANet and close to the best non-pretrained methods.
- Generalization experiments on ScanNet++ and Matterport3D show consistent improvements over the PT v3 baseline (mIoU gains: 0.8 on ScanNet++, 0.4 on Matterport3D).
- Gaussian correspondence using Mahalanobis distance with k around 20 provides the best trade-off for matching Gaussians to points.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.