QUICK REVIEW

[논문 리뷰] Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

Shihao Wang, Yingfei Liu|arXiv (Cornell University)|2023. 03. 21.

Advanced Vision and Imaging인용 수 7

한 줄 요약

StreamPETR은 객체 중심의 시간적 모델링을 도입하고 메모리 큐와 모션 인식 계층 정규화를 통해 온라인 다중 뷰 3D 객체 탐지를 가능하게 하며, 경쟁력 있는 라이다 유사 성능과 낮은 오버헤드를 제공합니다.

ABSTRACT

In this paper, we propose a long-sequence modeling framework, named StreamPETR, for multi-view 3D object detection. Built upon the sparse query design in the PETR series, we systematically develop an object-centric temporal mechanism. The model is performed in an online manner and the long-term historical information is propagated through object queries frame by frame. Besides, we introduce a motion-aware layer normalization to model the movement of the objects. StreamPETR achieves significant performance improvements only with negligible computation cost, compared to the single-frame baseline. On the standard nuScenes benchmark, it is the first online multi-view method that achieves comparable performance (67.6% NDS & 65.3% AMOTA) with lidar-based methods. The lightweight version realizes 45.0% mAP and 31.7 FPS, outperforming the state-of-the-art method (SOLOFusion) by 2.3% mAP and 1.8x faster FPS. Code has been available at https://github.com/exiawsh/StreamPETR.git.

연구 동기 및 목표

카메라만으로의 다중 뷰 3D 탐지를 위한 장기 시간 정보를 활용한 동기 부여.
역사를 객체 쿼리를 통해 확 propagate하는 객체 중심의 시간적 모델링 패러다드 제안.
추가 계산 및 저장소 사용 없이 온라인 추론 달성.
다른 희소 쿼리 방법으로의 일반화 및 nuScenes와 Waymo에서의 강력한 성능 시현.

제안 방법

이동하는 객체를 모델링하기 위한 시간적 숨겨진 상태로 희소 객체 쿼리 채택.
프레임별 전파를 위해 과거 객체 쿼리의 메모리 큐를 유지.
현재 쿼리와 과거 쿼리 간의 장기적 시공간 상호 작용을 수행하는 전파 트랜스포머 사용.
ego 차량 및 객체의 운동을 암시적으로 인코딩하는 모션 인식 계층 정규화 도입.
표준 자기 자신 주의(attention) 대신 하이브리드 주의 메커니즘을 도입하여 최소한의 오버헤드로 시간적 모델링 가능하게 함.
상위-K 전경 쿼리가 메모리 큐를 업데이트하고 탐지에 가이드를 제공하는 메모리 주도 프레임별 업데이트를 사용.

실험 결과

연구 질문

RQ1메모리 큐를 통한 객체 중심의 시간적 전파가 Dense한 시간 특성 없이도 경쟁력 있는 온라인 다중 뷰 3D 탐지를 달성할 수 있는가?
RQ2모션 인식 계층 정규화가 스트리밍 비디오에서의 자가 이동 및 객체 운동에 대한 강인성을 향상시키는가?
RQ3학습 시퀀스 길이와 메모리 크기가 장기 시간 융합 성능에 미치는 영향은 무엇인가?
RQ4StreamPETR은 nuScenes와 Waymo에서 기존의 온라인 카메라 기반 및 라이다 기반 방법과 어떻게 비교되는가?
RQ5이 접근법이 StreamPETR 외의 다른 희소 쿼리 방법에도 일반화 가능한가?

주요 결과

Method	Backbone	Image Size	Frames	mAP	NDS	mATE	mASE	mAOE	mAVE	mAAE	FPS
StreamPETR	ResNet50	256 × 704	8	0.432	0.540	0.581	0.272	0.413	0.295	0.195	27.1

StreamPETR은 nuScenes에서 온라인 카메라만 성능으로 경쟁력을 보이며 NDS와 AMOTA 지표에서 라이다 기반 방법과 대등한 성능을 달성합니다.
8 프레임 메모리와 ResNet50 백본으로 StreamPETR은 0.432 mAP 및 0.540 NDS를 달성하며 다수의 기준선보다 정확도와 속도(27.1 FPS) 면에서 우수합니다.
모션 인식 계층 정규화의 암시적 인코딩은 명시적 모션 보상 variante 대비 mAP를 약 2.0% 포인트, NDS를 약 1.8포인트 향상시킵니다.
학습 시퀀스 길이를 8–12 프레임으로 늘리면 장기 시간 의존도가 향상되며, 8 프레임이 성능과 효율성의 균형을 가장 좋게 제공합니다.
작은 메모리 풋프린트를 가진 객체 중심 시간적 모델링은 시야-메모리 기반 시간 융합에 비해 속도와 정확도 모두에서 우수합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.