[논문 리뷰] VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion
VoxFormer는 이미지 깊이로부터 희소한 3D 보셀 쿼리를 먼저 생성한 다음 MAE(masked autoencoder) 유사 아키텍처로 이를 밀집화하는 두 단계 트랜스포머 프레임워크를 도입하여 SemanticKITTI에서 카메라 기반 3D 의미 공간 완성 분야의 최첨단 성능을 달성한다.
Humans can easily imagine the complete 3D geometry of occluded objects and scenes. This appealing ability is vital for recognition and understanding. To enable such capability in AI systems, we propose VoxFormer, a Transformer-based semantic scene completion framework that can output complete 3D volumetric semantics from only 2D images. Our framework adopts a two-stage design where we start from a sparse set of visible and occupied voxel queries from depth estimation, followed by a densification stage that generates dense 3D voxels from the sparse ones. A key idea of this design is that the visual features on 2D images correspond only to the visible scene structures rather than the occluded or empty spaces. Therefore, starting with the featurization and prediction of the visible structures is more reliable. Once we obtain the set of sparse queries, we apply a masked autoencoder design to propagate the information to all the voxels by self-attention. Experiments on SemanticKITTI show that VoxFormer outperforms the state of the art with a relative improvement of 20.0% in geometry and 18.1% in semantics and reduces GPU memory during training to less than 16GB. Our code is available on https://github.com/NVlabs/VoxFormer.
연구 동기 및 목표
- 단안/스테레오 이미지로부터 Dense 3D semantics를 예측하여 차량 전방의 완전한 3D 장면 이해를 촉진하고 가능하게 한다.
- 카메라 기반 SSC에서 2D-3D 특징 투영의 비효율성과 모호성을 희소한 3D 쿼리 표현을 활용함으로써 해결한다.
- 가시 구조를 먼저 재구성한 뒤 가려진 영역에 대한 환영 정보를 제공하는 두 단계 아키텍처를 제안한다.
- 이전 카메라 기반 SSC 방법들에 비해 학습 메모리를 줄이고 기하학적 및 의미 완성 품질을 향상시킨다.
제안 방법
- Stage-1: 깊이 보정 점유를 사용하여 미리 정의된 Q 그리드에서 희소한 3D 보셀 쿼리 집합을 선택하는 클래스 비의존적 쿼리 제안.
- Stage-2: MAE 유사한 희소-밀집 트랜스포머로서 먼저 2D 이미지 피처와의 크로스 어텐션을 통해 제안된 보셀의 피처를 보강하고, 그다음 변형 가능한 self-attention으로 모든 보셀을 완성한 뒤, 조밀한 per-voxel 의미로 업샘플링한다.
실험 결과
연구 질문
- RQ1두 단계 희소-투-밀집 트랜스포머 프레임워크가 SemanticKITTI에서 카메라 기반 SSC를 최첨단 방법보다 향상시킬 수 있는가?
- RQ2깊이 기반 쿼리 제안이 점유된 영역에 주의를 집중시켜 계산을 줄이고 정확도를 향상시키는가?
- RQ3다중 프레임의 시간 정보가 VoxFormer의 기하학적 완성과 의미 분할에 미치는 영향은 무엇인가?
- RQ4ego-차량 전방의 다양한 거리에서 VoxFormer의 성능이 LiDAR 기반 SSC 방법과 비교하여 어떠한가?
주요 결과
- VoxFormer-T와 VoxFormer-S는 SemanticKITTI에서 카메라 기반 SSC의 최첨단 결과를 제공하며, VoxFormer-T는 12.8m에서 IoU 65.38% 및 mIoU 21.55%를 달성하고 51.2m에서 IoU 44.15 및 mIoU 13.35를 달성한다.
- VoxFormer는 기하학적 완성에서 MonoScene을 크게 능가하고(IoU 36.80% 대 44.15% 51.2m에서 VoxFormer-T) 의미 정확도에서(mIoU 11.30% 대 13.35%), 짧은 거리의 안전 크리티컬 영역에서 큰 이점을 제공한다.
- 시간 정보(VoxFormer-T)는 전체, 51.2m, 25.6m, 12.8m 구간에서 각각 +8.10%에서 +22.03%의 mIoU 증가를 유발한다.
- VoxFormer는 깊이 기반 쿼리 제안을 사용하여 빈 공간 주의를 감소시키고 약 60M 파라미터에 대해 ~16GB의 더 낮은 학습 메모리를 달성하여 근거리 영역에서 여러 LiDAR 기반 방법을 능가한다.
- 스테레오 깊이를 사용하면 VoxFormer-S와 VoxFormer-T가 단안 깊이에 비해 추가 개선을 보여주며 3D 장면 완성에 있어 정확한 깊이의 이점을 부각시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.