QUICK REVIEW

[论文解读] Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

Shihao Wang, Yingfei Liu|arXiv (Cornell University)|Mar 21, 2023

Advanced Vision and Imaging被引用 7

一句话总结

StreamPETR 引入面向对象的时序建模，使用记忆队列与运动感知层归一化，实现具有竞争力的类似激光雷达性能的在线多视角3D对象检测，开销低。

ABSTRACT

In this paper, we propose a long-sequence modeling framework, named StreamPETR, for multi-view 3D object detection. Built upon the sparse query design in the PETR series, we systematically develop an object-centric temporal mechanism. The model is performed in an online manner and the long-term historical information is propagated through object queries frame by frame. Besides, we introduce a motion-aware layer normalization to model the movement of the objects. StreamPETR achieves significant performance improvements only with negligible computation cost, compared to the single-frame baseline. On the standard nuScenes benchmark, it is the first online multi-view method that achieves comparable performance (67.6% NDS & 65.3% AMOTA) with lidar-based methods. The lightweight version realizes 45.0% mAP and 31.7 FPS, outperforming the state-of-the-art method (SOLOFusion) by 2.3% mAP and 1.8x faster FPS. Code has been available at https://github.com/exiawsh/StreamPETR.git.

研究动机与目标

通过更长时间的信息提升仅使用相机的多视角3D检测的动机。
提出一种面向对象的时序建模范式，通过对象查询传播历史信息。
实现在线推理而额外计算和存储几乎为零。
演示对其他稀疏查询方法的泛化能力，以及在 nuScenes 和 Waymo 上的强结果。

提出的方法

将稀疏对象查询作为时序隐藏状态来建模移动对象。
维护历史对象查询的记忆队列，以实现逐帧传播。
使用传播型变换器对当前与历史查询进行长程时空交互。
引入运动感知的层归一化以隐式编码本车与对象运动。
用混合注意力机制替代标准自注意力，以在最小开销下实现时序建模。
采用记忆驱动的逐帧更新，其中前K个前景查询更新记忆队列并引导检测。

实验结果

研究问题

RQ1对象中心的时序传播通过记忆队列在没有密集时序特征的情况下是否也能实现具有竞争力的在线多视角3D检测？
RQ2运动感知层归一化是否提升在流视频中对本车与对象运动的鲁棒性？
RQ3训练序列长度和记忆大小对长期时序融合性能有何影响？
RQ4StreamPETR 与现有在线摄像头基方法及激光雷达基方法在 nuScenes 和 Waymo 的比较如何？
RQ5该方法是否可推广到除了 StreamPETR 以外的其他稀疏查询方法？

主要发现

Method	Backbone	Image Size	Frames	mAP	NDS	mATE	mASE	mAOE	mAVE	mAAE	FPS
StreamPETR	ResNet50	256 × 704	8	0.432	0.540	0.581	0.272	0.413	0.295	0.195	27.1

StreamPETR 在 nuScenes 上实现了具有竞争力的在线仅摄像头性能，在 NDS 与 AMOTA 指标上与激光雷达基方法相当。
在 8 帧记忆和 ResNet50 骨干下，StreamPETR 获得 0.432 的 mAP 和 0.540 的 NDS，超过若干基线，且速度快（27.1 FPS）。
运动感知层归一化的隐式编码比显式运动补偿变体在 mAP 上提升约 2.0 个百分点、在 NDS 上提升约 1.8 点。
将训练序列长度提升到 8–12 帧可增强长期时序依赖；8 帧在性能与效率之间达到良好平衡。
面向对象的时序建模、较小的记忆占用在速度与精度上均优于基于透视记忆的时序融合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。