QUICK REVIEW

[논문 리뷰] Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

Yuanhui Huang, Wenzhao Zheng|arXiv (Cornell University)|2023. 02. 15.

Advanced Vision and Imaging인용 수 8

한 줄 요약

TPVFormer는 top, side, front 평면으로 세 관점의 TPV를 도입하여 RGB 이미지를 3D 의미적 점유로 올리고, 카메라만 사용해 LiDAR-segmentation 성능에 대응하는 경쟁력을 달성한다.

ABSTRACT

Modern methods for vision-centric autonomous driving perception widely adopt the bird's-eye-view (BEV) representation to describe a 3D scene. Despite its better efficiency than voxel representation, it has difficulty describing the fine-grained 3D structure of a scene with a single plane. To address this, we propose a tri-perspective view (TPV) representation which accompanies BEV with two additional perpendicular planes. We model each point in the 3D space by summing its projected features on the three planes. To lift image features to the 3D TPV space, we further propose a transformer-based TPV encoder (TPVFormer) to obtain the TPV features effectively. We employ the attention mechanism to aggregate the image features corresponding to each query in each TPV plane. Experiments show that our model trained with sparse supervision effectively predicts the semantic occupancy for all voxels. We demonstrate for the first time that using only camera inputs can achieve comparable performance with LiDAR-based methods on the LiDAR segmentation task on nuScenes. Code: https://github.com/wzzheng/TPVFormer.

연구 동기 및 목표

Vision 기반의 3D 인식이 LiDAR를 대체하여 완전한 3D 의미 점유 예측을 가능하게 한다는 동기를 제시한다.
세 가지 직교 평면(상단, 측면, 전면)을 사용하여 3D 구조를 보존하는 TPV 표현을 제안한다.
attention을 통해 2D 이미지 특징을 TPV 공간으로 올리기 위한 transformer 기반 TPVFormer를 개발한다.
카메라만으로 구성된 TPVFormer가 LiDAR 세그멘테이션 및 의미적 장면 완성 작업을 수행할 수 있음을 보여준다.
TPVFormer가 LiDAR 기반 결과에 버금가고 희소한 감독 하에서 점유 예측을 개선한다는 것을 보여준다.

제안 방법

세 가지 평면(T HW, T DH, T WD)으로 상단, 측면, 전면 뷰를 포괄하는 Tri-Perspective View(TPV)를 정의한다.
각 TPV 평면에 3D 포인트를 투영하고, bilinear 보간을 통해 특징을 샘플링한 뒤 합산하여 점 특징(f_x,y,z)을 얻는다.
TPV 쿼리에 대한 변형 가능한 주의(attention)로 이미지 교차 주의(ICA)를 사용하여 이미지 특징을 TPV 공간으로 올린다.
상호 작용을 가능하게 하는 교차 뷰 하이브리드 어텐션(CVHA)을 enabling하여 TPV 평면 간의 상호 작용을 허용한다.
3D 위치 임베딩으로 초기화된 학습 가능한 파라미터를 사용하는 TPV 쿼리를 이용하고, TPVFormer에서 HCAB와 HAB 트랜스포머 블록을 쌓아 올린다.
TPV 특징을 점/복셀 특징으로 변환하고 의미적 세분화를 위해 경량의 2층 MLP를 적용한다.

실험 결과

연구 질문

RQ1삼중 시점 TPV 표현이 BEV보다 더 미세한 3D 구조를 더 잘 포착하면서도 효율성을 유지할 수 있는가?
RQ2희소 LiDAR 감독을 사용하여 훈련할 때 다중 시점 RGB 특징을 3D TPV 공간으로 올리는 트랜스포머 기반 TPVFormer의 성능은 어느 정도인가?
RQ3비전만으로 구성된 TPVFormer가 LiDAR 기반 방법과 LiDAR 세그멘테이션 및 의미적 장면 완성 작업에서 경쟁력이 있는가?
RQ4희소한 감독하에서 3D 점유 예측을 극대화하는 아키텍처 선택(예: HCAB 대 HAB 블록, 해상도 등)은 무엇인가?

주요 결과

TPVFormer는 RGB 입력만으로 감독하는 NuScenes LiDAR 세그먼테이션에서 LiDAR 기반 방법과 같은 mIoU를 달성한다.
TPV 표현은 3개의 평면에서 컨텍스트 다양화 측면에서 BEV를 능가하는 HW+DH+WD의 저장 용량으로 미세한 3D 구조를 보존한다.
테스트 시 TPV 평면 해상도가 증가함에 따라 모델이 더 상세한 객체 모양을 포착한다.
TPVFormer-Small 및 TPVFormer-Base는 MonoScene보다 훨씬 적은 파라미터와 FLOPs로도 강력한 성능을 보여준다.
이 방법은 밀집한 의미 점유를 예측하고, 검증 데이터에서 때때로 ground-truth LiDAR 세그먼테이션과 일치하거나 이를 능가하는 점유 일관성 결과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.