[论文解读] Orthographic Feature Transform for Monocular 3D Object Detection
提出正射特征变换(OFT),将基于图像的特征映射到正射鸟瞰视图,从而实现单目三维推理,用于单目三维目标检测,并在 KITTI 上取得单目方法的最新水平。
3D object detection from monocular images has proven to be an enormously challenging task, with the performance of leading systems not yet achieving even 10\% of that of LiDAR-based counterparts. One explanation for this performance gap is that existing systems are entirely at the mercy of the perspective image-based representation, in which the appearance and scale of objects varies drastically with depth and meaningful distances are difficult to infer. In this work we argue that the ability to reason about the world in 3D is an essential element of the 3D object detection task. To this end, we introduce the orthographic feature transform, which enables us to escape the image domain by mapping image-based features into an orthographic 3D space. This allows us to reason holistically about the spatial configuration of the scene in a domain where scale is consistent and distances between objects are meaningful. We apply this transformation as part of an end-to-end deep learning architecture and achieve state-of-the-art performance on the KITTI 3D object benchmark.\footnote{We will release full source code and pretrained models upon acceptance of this manuscript for publication.
研究动机与目标
- 激励单目三维目标检测并缩小与激光雷达(LiDAR)方法之间的差距。
- 提出一个可微的正射特征变换(OFT),将图像特征映射到 BEV 空间。
- 开发一个端到端的卷积神经网络架构,在 BEV 空间对 3D 结构进行推理。
- 从单目输入预测 3D 边界框及相关属性(位置、尺寸、方向)。
- 展示在 KITTI 数据集的单目方法的最新结果并分析 3D 推理的益处。
提出的方法
- 通过对投影体素区域内的图像特征 f(u,v) 进行聚合,定义体素基的 3D 特征图 g(x,y,z)(Equation 1)。
- 沿高度对 g 进行压缩,得到通过学习权重 W(y) 的正射 BEV 特征图 h(x,z)(Equation 3)。
- 使用积分图高效对多区域进行快速平均池化来池化特征(Equation 5)。
- 用自上而下的网络(类似 ResNet)处理 BEV 特征,以推理 3D 场景结构。
- 预测每个位置的输出:置信度 S、位置偏移 Δpos、尺寸偏移 Δdim 和角度向量 Δang(Equations 6–9)。
- 用 S、Δpos、Δdim、Δang 的 L1 损失进行训练,并在 BEV 置信度图上使用 NMS 以产生最终的 3D 框。
实验结果
研究问题
- RQ1从图像空间特征到正射 BEV 空间的可微分映射是否能够实现对单个图像的鲁棒 3D 推理?
- RQ2在 KITTI 上,BEV 空间的推理是否相比图像空间方法提升单目 3D 目标检测的性能?
- RQ3基于 OFT 的 BEV 表征对远距离或被遮挡对象的检测有何影响?
- RQ4顶层自上而下 BEV 网络的深度对 3D 检测性能有何影响?
主要发现
| 方法 | 模态 | AP3D 简单 | AP3D 中等 | AP3D 困难 | APBEV 简单 | APBEV 中等 | APBEV 困难 |
|---|---|---|---|---|---|---|---|
| 3D-SSMFCNN | Mono | 2.28 | 2.39 | 1.52 | 3.66 | 3.19 | 3.45 |
| OFT-Net (Ours) | Mono | 2.50 | 3.28 | 2.27 | 9.50 | 7.99 | 7.51 |
| 3DOP | Stereo | 6.55 | 5.07 | 4.10 | 12.63 | 9.49 | 7.59 |
| Mono3D | Mono | 2.53 | 2.31 | 2.31 | 5.22 | 5.19 | 4.13 |
| OFT-Net (Ours) | Mono | 4.07 | 3.27 | 3.29 | 11.06 | 8.79 | 8.91 |
- OFT 通过将图像特征映射到 BEV 表征来实现端到端学习,而不需要显式深度监督。
- 相较于基线,顶层 BEV 推理在 KITTI 上显著提升单目 3D 检测性能。
- OFT-Net 在 KITTI 的单目方法中达到最先进水平,超过 Mono3D,并在 BEV 指标上接近立体结果。
- 该方法在远距离对象上保持良好性能,衰减速度比一些竞争性单目方法更慢。
- 消融实验表明更深的 BEV 推理(顶层网络)相对于 RoI 风格的池化基线提供显著提升。
- BEV 置信度图有效定位对象中心,便于在 BEV 空间进行直接的 NMS。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。