QUICK REVIEW

[论文解读] Efficient Bird Eye View Proposals for 3D Siamese Tracking

Jesús Zarzar, Silvio Giancola|arXiv (Cornell University)|Mar 25, 2019

Video Surveillance and Tracking Methods参考文献 31被引用 31

一句话总结

该论文提出了一种高效的3D车辆跟踪框架，利用区域提议网络（RPN）生成的鸟瞰图（BEV）提议来减少激光雷达点云中的搜索空间复杂度。通过在鸟瞰图（BEV）和3D特征上联合训练一个3D孪生网络并引入形状补全正则化，该方法在仅使用16个候选框的情况下，成功率达到先前工作的12%以上，精确率达到18%以上。

ABSTRACT

Tracking vehicles in LIDAR point clouds is a challenging task due to the sparsity of the data and the dense search space. The lack of structure in point clouds impedes the use of convolution filters usually employed in 2D object tracking. In addition, structuring point clouds is cumbersome and implies losing fine-grained information. As a result, generating proposals in 3D space is expensive and inefficient. In this paper, we leverage the dense and structured Bird Eye View (BEV) representation of LIDAR point clouds to efficiently search for objects of interest. We use an efficient Region Proposal Network and generate a small number of object proposals in 3D. Successively, we refine our selection of 3D object candidates by exploiting the similarity capability of a 3D Siamese network. We regularize the latter 3D Siamese network for shape completion to enhance its discrimination capability. Our method attempts to solve both for an efficient search space in the BEV space and a meaningful selection using 3D LIDAR point cloud. We show that the Region Proposal in the BEV outperforms Bayesian methods such as Kalman and Particle Filters in providing proposal by a significant margin and that such candidates are suitable for the 3D Siamese network. By training our method end-to-end, we outperform the previous baseline in vehicle tracking by 12% / 18% in Success and Precision when using only 16 candidates.

研究动机与目标

解决在稀疏激光雷达点云中进行3D搜索时效率低下且计算成本过高的问题。
克服传统滤波器（如卡尔曼滤波器和粒子滤波器）在生成可靠3D跟踪提议方面的局限性。
利用结构化且密集的BEV表示，实现快速有效的区域提议生成。
通过结合2D BEV提议与3D孪生特征学习及形状补全正则化，提升判别能力与跟踪精度。
实现双分支孪生网络的端到端训练，联合学习提议生成与相似性度量以用于3D跟踪。

提出的方法

将原始激光雷达点云转换为密集的2D鸟瞰图（BEV）表示，以利用空间结构并减少稀疏性。
在BEV特征图上部署区域提议网络（RPN），以高效生成少量候选3D边界框。
训练一个双分支孪生网络，分别处理2D BEV和3D点云特征，以学习用于跟踪的相似性度量。
通过形状补全损失对3D孪生分支进行正则化，以增强特征的判别能力并提高对部分点云的鲁棒性。
对RPN和孪生网络进行端到端训练，以联合优化提议生成与跟踪性能。
使用3D孪生网络根据学习到的相似性分数，对RPN生成的提议进行精炼并选择最优候选框。

实验结果

研究问题

RQ1在2D鸟瞰图（BEV）空间中的区域提议网络（RPN）是否能比卡尔曼滤波器或粒子滤波器更有效地生成3D车辆跟踪的提议？
RQ2将2D BEV提议与3D孪生特征学习相结合，相较于穷举搜索或基于滤波的方法，能在多大程度上提升跟踪精度与鲁棒性？
RQ3在3D孪生网络中引入形状补全正则化，对部分观测或稀疏点云的特征判别能力与跟踪性能有何影响？
RQ4所提方法是否能在仅使用极少候选提议（如16个）的情况下实现最先进性能，同时保持实时可行性？
RQ52D BEV表示在实现快速密集搜索的同时，如何在保留足够3D几何信息以实现精确跟踪方面发挥关键作用？

主要发现

BEV空间中的RPN在提议质量上优于卡尔曼滤波器和粒子滤波器，即使仅使用16个候选框，也显著提升了成功与精确度得分。
与先前最先进基线方法相比，该方法在仅使用16个提议的情况下，成功率提升12%，精确率提升18%。
BEV RPN提议与3D孪生特征学习的结合，使各类目标（包括汽车、自行车和行人）的跟踪均实现高精度，且性能提升稳定。
3D孪生网络中的形状补全正则化显著增强了特征判别能力，尤其在部分观测或稀疏点云场景下表现更优。
该方法在端到端训练中收敛迅速，表明ImageNet和KITTI预训练特征提供了强大的初始化，几乎无需额外联合优化。
角度回归未提升性能，因为2.5度的锚框分辨率已足够，增加回归反而增加复杂度而无实际收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。