Skip to main content
QUICK REVIEW

[论文解读] EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

Tengteng Huang, Zhe Liu|arXiv (Cornell University)|Jul 17, 2020
Advanced Neural Network Applications参考文献 41被引用 27
一句话总结

EPNet 提出了一种新颖的3D目标检测框架,通过LiDAR引导的图像融合(LI-Fusion)模块,将图像语义信息融入LiDAR点特征中,实现无标注点级融合。该方法进一步引入一致性约束损失(CE loss),以对齐分类置信度与定位置信度,从而在KITTI和SUN-RGBD基准上实现最先进性能。

ABSTRACT

In this paper, we aim at addressing two critical issues in the 3D detection task, including the exploitation of multiple sensors~(namely LiDAR point cloud and camera image), as well as the inconsistency between the localization and classification confidence. To this end, we propose a novel fusion module to enhance the point features with semantic image features in a point-wise manner without any image annotations. Besides, a consistency enforcing loss is employed to explicitly encourage the consistency of both the localization and classification confidence. We design an end-to-end learnable framework named EPNet to integrate these two components. Extensive experiments on the KITTI and SUN-RGBD datasets demonstrate the superiority of EPNet over the state-of-the-art methods. Codes and models are available at: \url{https://github.com/happinesslz/EPNet}.

研究动机与目标

  • 解决在不依赖2D边界框标注的情况下,融合LiDAR点云与相机图像进行3D目标检测的挑战。
  • 克服基于鸟瞰图(BEV)融合方法存在的信息丢失与粗粒度特征对齐问题。
  • 减轻多传感器融合过程中噪声或无关图像特征带来的干扰。
  • 解决3D检测中分类置信度与定位置信度不一致的问题,该问题会降低NMS性能。
  • 构建一个端到端可学习的框架,通过联合优化特征融合与置信度一致性,提升检测精度。

提出的方法

  • 提出一种LiDAR引导的图像融合(LI-Fusion)模块,通过空间与几何对齐,在LiDAR点与图像特征之间建立细粒度的点级对应关系。
  • 基于图像语义特征与每个LiDAR点的相关性,自适应地加权图像特征,无需图像标注即可抑制无关或干扰特征。
  • 引入一致性约束损失(CE loss),在训练过程中显式促进分类置信度与定位置信度(IoU)的一致性。
  • CE loss为无参设计,无需架构修改,可轻松集成到现有3D检测网络中。
  • 将LI-Fusion模块与CE loss整合到一个端到端可训练的框架EPNet中,联合优化特征增强与置信度一致性。
  • 采用双流RPN分别处理LiDAR与图像特征,随后通过一个细化网络完成最终检测。

实验结果

研究问题

  • RQ1能否通过点级、无标注的图像语义与LiDAR特征融合,提升3D目标检测精度?
  • RQ2在3D检测的多传感器融合过程中,如何有效抑制无关或噪声图像特征的干扰?
  • RQ3分类与定位置信度之间的不一致性在多大程度上会降低检测性能?是否可被显式缓解?
  • RQ4一致性约束损失是否能在不修改网络结构或引入推理开销的前提下,提升NMS性能?
  • RQ5所提出的EPNet框架是否能在包括室外(KITTI)与室内(SUN-RGBD)在内的多样化场景中实现良好泛化?

主要发现

  • EPNet在KITTI数据集上达到最先进性能,在Waymo风格划分下3D mAP达到89.68%。
  • 在KITTI验证集上,EPNet对易样本的mAP为89.81%,中等样本为79.28%,困难样本为74.59%,均优于先前最先进方法。
  • 在SUN-RGBD数据集上,EPNet取得59.8%的3D mAP,分别领先PointFusion 15.7%、COG 12.2%、F-PointNet 5.8%与VoteNet 2.1%。
  • 消融实验表明,LI-Fusion模块与CE loss均对性能提升有显著贡献,其中CE loss在KITTI上使mAP最高提升2.5%。
  • 定性结果表明,EPNet生成的边界框更准确且更一致,尤其在具有相似几何结构的复杂场景(如密集排列的椅子)中表现更优。
  • 该方法能有效抑制图像特征的干扰——例如在遮挡或无纹理区域——同时增强有判别性的区域(如彩色物体)的特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。