[论文解读] Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
Sparse4D v2 引入了用于稀疏多视角3D检测的递归时序融合模块,将时序融合从 O(T) 降至 O(1),并在 nuScenes 上达到最先进结果,同时 Efficient Deformable Aggregation 和相机参数编码提升了效率和鲁棒性。
Sparse algorithms offer great flexibility for multi-view temporal perception tasks. In this paper, we present an enhanced version of Sparse4D, in which we improve the temporal fusion module by implementing a recursive form of multi-frame feature sampling. By effectively decoupling image features and structured anchor features, Sparse4D enables a highly efficient transformation of temporal features, thereby facilitating temporal fusion solely through the frame-by-frame transmission of sparse features. The recurrent temporal fusion approach provides two main benefits. Firstly, it reduces the computational complexity of temporal fusion from $O(T)$ to $O(1)$, resulting in significant improvements in inference speed and memory usage. Secondly, it enables the fusion of long-term information, leading to more pronounced performance improvements due to temporal fusion. Our proposed approach, Sparse4Dv2, further enhances the performance of the sparse perception algorithm and achieves state-of-the-art results on the nuScenes 3D detection benchmark. Code will be available at \url{https://github.com/linxuewu/Sparse4D}.
研究动机与目标
- 通过实现高效的长期时序融合,激发在自动驾驶中对基于稀疏的感知的改进。
- 开发一种递归时序融合机制,将图像特征与实例状态解耦以降低计算量。
- 通过相机参数编码和密集深度监督来提升训练稳定性与鲁棒性。
- 通过优化的可变形聚合操作提升内存效率和推理速度。
- 展示在 nuScenes 上相对于 BEV 基础及其他稀疏方法的最先进性能。
提出的方法
- 用跨帧的实例特征递归传播替代多帧采样。
- 使用锚点、实例特征和锚点嵌入来解耦图像特征和实例状态,并为时序投影提供轻量级的锚点编码 Psi。
- 通过自运动在当前帧传播锚点并重新编码它们的位置嵌入,以便在解码器中进行时序交叉注意。
- 引入 Efficient Deformable Aggregation (EDA),将多视图、多尺度特征作为单个 CUDA 操作进行聚合,降低内存并提高速度。
- 将相机参数编码直接并入视图权重计算,以提升对相机变化的鲁棒性。
- 从 LiDAR 点云添加密集深度监督以稳定和加速训练,后续移除 depth-reweight 模块。

实验结果
研究问题
- RQ1如何使稀疏多视角3D检测的时序融合与历史帧数量无关,以提高速度和内存利用率?
- RQ2基于自运动锚定的实例级时序传播能否在不牺牲准确性的前提下替代多帧采样?
- RQ3明确定义编码相机参数并结合密集深度监督是否能在不同视角和场景中提升鲁棒性和检测性能?
- RQ4在稀疏时序融合中重新设计的可变形聚合算子在效率和内存方面有哪些好处?
主要发现
- Sparse4Dv2 的推理速度更快、内存占用更低,优于 Sparse4Dv1,在跨帧上有显著提升(例如:在 RTX 3090 上的 FPS 和显存提升)。
- 递归时序融合实现了长期信息融合,而不增加锚点数量,保持与非时序模型相当的推理速度。
- Efficient Deformable Aggregation (EDA) 将训练内存大约降低一半,并增加训练批量大小和整体速度,同时推理 FPS 提升约 42%。
- 相机参数编码提升了定向与整体感知指标;去除它会降低 mAP 和 mAOE。
- 密集深度监督显著提升性能(例如,在启用时减少梯度崩塌并提升 mAP/NDS)。
- 在 nuScenes 验证集,ResNet50 和 256x704 输入下,Sparse4Dv2 达到 mAP 0.439 和 NDS 0.539,超过若干基于 BEV 的和稀疏基线;在测试集,Sparse4Dv2 搭配 VovNet-99 达到 mAP 0.557 和 NDS 0.638,显示出 SOTA 潜力。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。