[논문 리뷰] Segment Any 4D Gaussians
SA4D는 시간적 신원 필드를 학습하여 가우시안 드리프팅을 해결함으로써 Segment Anything를 4D Gaussian 표현으로 확장하고, 4D Gaussian Splatting에서 빠르고 개방형(Open-world) 분할 및 동적 장면 편집을 가능하게 한다.
Modeling, understanding, and reconstructing the real world are crucial in XR/VR. Recently, 3D Gaussian Splatting (3D-GS) methods have shown remarkable success in modeling and understanding 3D scenes. Similarly, various 4D representations have demonstrated the ability to capture the dynamics of the 4D world. However, there is a dearth of research focusing on segmentation within 4D representations. In this paper, we propose Segment Any 4D Gaussians (SA4D), one of the first frameworks to segment anything in the 4D digital world based on 4D Gaussians. In SA4D, an efficient temporal identity feature field is introduced to handle Gaussian drifting, with the potential to learn precise identity features from noisy and sparse input. Additionally, a 4D segmentation refinement process is proposed to remove artifacts. Our SA4D achieves precise, high-quality segmentation within seconds in 4D Gaussians and shows the ability to remove, recolor, compose, and render high-quality anything masks. More demos are available at: https://jsxzs.github.io/sa4d/.
연구 동기 및 목표
- 변형 기반 4D 가우시안 표현으로 4D 분할 재정의.
- 가우시안 드리프팅을 시간에 걸쳐 해결하기 위한 시간적 신원 특성 필드 개발.
- 세분화 품질을 다듬기 위한 가우시안 신원 표 및 후처리 통합.
- GT 4D 라벨이 없는 상태에서 4D 분할을 학습하기 위한 비 GT 4D 라벨의 2D 감독으로 4D 분할 학습.
- 동적 장면에서 실시간 렌더링 및 편집 기능(제거, 재색칠, 합성) 시연
제안 방법
- 전역 정규화된 3D 가우시안 베이스와 변형 필드를 포함하는 4D 표현으로 4D 가우시안 스플래팅(4D-GS) 채택.
- 각 가우시안의 정규 위치와 시간에서 시간-변이 신원 특징 e를 예측하는 시간적 신원 특징 필드 네트워크를 도입.
- 소프트맥스와 작은 컨볼루션 디코더를 사용하여 각 가우시안의 신원을 분류하고 비디오 트래커 마스크로부터 2D 신원 감독을 가능하게 함.
- 변형 기반 및 신원 기반 예측을 융합하여 시간마다의 가우시안을 내보내는 내보내기 프로세스 정의.
- GT 4D 라벨이 없는 경우 2D 의사 세분화 손실(L2D)과 3D 규제 손실(L3D)로 신원 특징을 감독하도록 학습.
- 이상치 제거 및 경계 모호성 해소를 위한 2D 세분화 정제 후처리 단계 적용과 거의 이웃 시점 간 보간을 위한 Gaussian Identity Table(M) 유지
실험 결과
연구 질문
- RQ1SAM 스타일의 세분화를 오픈 월드 4D 가우시안 표현으로 어떻게 확장할 수 있는가?
- RQ24D-GS에서 시간에 따라 가우시안 드리프팅을 완화하는 시간적 신원 필드가 가능한가?
- RQ3GT 4D 라벨 없이 4D 분할을 가능하게 하는 감독 전략은 무엇인가?
- RQ4정제 및 신원 표 메커니즘이 4D 장면의 품질과 렌더링 속도를 어떻게 향상시키는가?
- RQ5동적 장면에서 SA4D로 어떤 편집 기능(제거, 재색칠, 합성)이 가능해지는가?
주요 결과
| 모델 | mIoU (%) (HyperNeRF) | mAcc (%) (HyperNeRF) | mIoU (%) (Neu3D) | mAcc (%) (Neu3D) |
|---|---|---|---|---|
| SAGA | 65.25 | 75.56 | 76.26 | 81.56 |
| Gaussian Grouping | 69.53 | 91.55 | 87.02 | 98.72 |
| Ours w/o TFF (w/o Refinement) | 80.26 | 99.56 | - | - |
| Ours w/ TFF (w/o Refinement) | 81.10 | 99.54 | 80.14 | 99.88 |
| Ours w/ all | 89.86 | 99.24 | 93.02 | 99.76 |
- SA4D는 RTX 3090에서 몇 초 내에 빠른 인터랙티브 4D 분할을 달성한다.
- 시간적 신원 필드를 도입하면 가우시안 드리프팅이 감소하고 시간에 걸친 ID 일관성이 향상된다.
- 2D 비디오 트래커 마스크로부터의 시간적 신원 감독 및 3D 규제 학습은 3D 기반 기준선에 비해 동적 장면에서 높은 분할 정확도를 제공한다.
- Gaussian Identity Table은 기준 4D-GS에 비해 추가 저장 용량이 거의 필요 없이 거의 실시간 렌더링 및 편집을 가능하게 한다.
- 정제 단계는 인공물과 경계 모호성을 크게 줄여 동적 장면에서 IoU 및 정확도를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.