QUICK REVIEW

[论文解读] Stereo R-CNN based 3D Object Detection for Autonomous Driving

Peiliang Li, Xiaozhi Chen|arXiv (Cornell University)|Feb 26, 2019

Advanced Neural Network Applications参考文献 32被引用 36

一句话总结

一个立体-RCNN框架将 Faster R-CNN 扩展到立体图像以联合检测和关联对象，并通过一个学习辅助的几何方法结合密集光度对齐来 refinement 3D 边界框，在 KITTI 上无需深度监督即可实现基于图像的最先进3D检测。

ABSTRACT

We propose a 3D object detection method for autonomous driving by fully exploiting the sparse and dense, semantic and geometry information in stereo imagery. Our method, called Stereo R-CNN, extends Faster R-CNN for stereo inputs to simultaneously detect and associate object in left and right images. We add extra branches after stereo Region Proposal Network (RPN) to predict sparse keypoints, viewpoints, and object dimensions, which are combined with 2D left-right boxes to calculate a coarse 3D object bounding box. We then recover the accurate 3D bounding box by a region-based photometric alignment using left and right RoIs. Our method does not require depth input and 3D position supervision, however, outperforms all existing fully supervised image-based methods. Experiments on the challenging KITTI dataset show that our method outperforms the state-of-the-art stereo-based method by around 30% AP on both 3D detection and 3D localization tasks. Code has been released at https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN.

研究动机与目标

通过利用立体影像的语义与几何线索来促进自动驾驶的3D目标检测。
开发一个网络，能够在左右图像之间检测并关联对象，并提出立体感知的 proposals。
从立体线索中估计粗略的3D框，并通过密集的区域级光度对齐进行细化。
利用关键点与语义线索来约束3D姿态与尺寸，而无需深度监督。

提出的方法

将 Faster R-CNN 扩展到带有共享主干网络的立体输入，并拼接左-右特征。
使用 Stereo RPN 生成成对的左-右 proposal，并提供六个回归项用于立体框。
融合左-右 RoI 特征以预测类别、立体框参数、尺寸和视点角。
引入一个3D语义关键点分支，预测四个底角关键点和两个边界关键点，以约束3D估计。
将3D框估计公式化为一个学习辅助的几何问题，使用来自左/右框和透视关键点的七个测量，并通过高斯-牛顿优化求解。
在一个有效 RoI 内应用密集的区域级光度对齐，通过最小化左右光度再投影误差来细化3D中心深度，从而实现亚像素深度精度。

实验结果

研究问题

RQ1立体图像是否能在不进行显式深度监督的情况下实现准确的3D目标检测？
RQ2在深度检测器中，左-右关联和语义关键点如何提高3D框估计的准确性？
RQ3密集光度对齐对基于立体检测的3D定位精度有何影响？
RQ4所提出的 Stereo R-CNN 与 KITTI 基准上现有的基于图像的方法和基于 LiDAR 的方法在3D检测和3D定位方面的对比如何？
RQ5哪些消融（关键点、对齐、增强）最能提升性能？

主要发现

Stereo R-CNN 框架在 KITTI 上在无需深度监督的情况下实现了具有竞争力的3D检测与定位，超越了若干基于图像的方法。
左右 RoI 特征的通道级融合比对立体数据的简单平均获得更好的性能。
引入3D语义关键点显著提升 Easy/Moderate/Hard 设置下的3D检测与定位。
密集的区域级光度对齐显著提升3D中心的深度估计精度，结合3D框整 Rectification 时进一步提升性能。
该方法在 KITTI 基准测试上相对于3DOP立体方法有显著提升，并趋近于基于 LiDAR 的性能，立体方法通过光度对齐提供了强的深度线索。
在 Titan Xp 上的推理时间约为每对立体图像 0.28s，显示出实际的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。