Skip to main content
QUICK REVIEW

[论文解读] MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving

Mennatullah Siam, Heba Mahgoub|arXiv (Cornell University)|Sep 14, 2017
Advanced Neural Network Applications参考文献 25被引用 49
一句话总结

该论文提出MODNet,一种双流卷积网络,通过融合RGB与光流特征,联合学习车辆检测与运动分割,在KITTI MOD数据集上相比MPNet实现mAP提升21.5%。该方法通过多任务学习共享编码器表征,实现自动驾驶场景中运动目标的鲁棒检测,并在8 fps的实时推理速度下运行。

ABSTRACT

We propose a novel multi-task learning system that combines appearance and motion cues for a better semantic reasoning of the environment. A unified architecture for joint vehicle detection and motion segmentation is introduced. In this architecture, a two-stream encoder is shared among both tasks. In order to evaluate our method in autonomous driving setting, KITTI annotated sequences with detection and odometry ground truth are used to automatically generate static/dynamic annotations on the vehicles. This dataset is called KITTI Moving Object Detection dataset (KITTI MOD). The dataset will be made publicly available to act as a benchmark for the motion detection task. Our experiments show that the proposed method outperforms state of the art methods that utilize motion cue only with 21.5% in mAP on KITTI MOD. Our method performs on par with the state of the art unsupervised methods on DAVIS benchmark for generic object segmentation. One of our interesting conclusions is that joint training of motion segmentation and vehicle detection benefits motion segmentation. Motion segmentation has relatively fewer data, unlike the detection task. However, the shared fusion encoder benefits from joint training to learn a generalized representation. The proposed method runs in 120 ms per frame, which beats the state of the art motion detection/segmentation in computational efficiency.

研究动机与目标

  • 解决自动驾驶场景中自身运动与复杂物体交互导致运动分割性能下降的挑战。
  • 通过在统一深度学习框架中联合建模外观与运动线索,克服单模态方法的局限性。
  • 创建一个新的基准数据集KITTI MOD,包含车辆的静态/运动标注,以支持运动分割研究。
  • 证明共享表征的多任务学习可提升泛化能力,尤其在运动分割数据有限时表现更优。

提出的方法

  • 提出一种双流编码器-解码器架构,独立处理RGB图像与光流,随后在共享编码器中融合特征,实现联合学习。
  • 采用带有跳跃连接的共享编码器,以保留空间分辨率并增强检测与运动分割任务的特征表征能力。
  • 在端到端训练中使用多任务损失函数,结合检测损失(如交叉熵与边界框回归)与运动分割损失(如二元交叉熵)。
  • 提出三种变体:(1) 单流光流,(2) 分开训练的双流,(3) 联合训练的双流,其中后者表现最佳。
  • 利用预训练的VGG16权重初始化编码器,以提升在有限运动数据下的收敛性与性能。
  • 设计一种新型数据生成流水线,扩展KITTI数据集,添加运动/静态物体标注,构建KITTI MOD基准数据集。

实验结果

研究问题

  • RQ1联合学习外观与运动线索是否能提升自动驾驶场景中运动目标检测与运动分割的准确性?
  • RQ2当运动分割数据远少于检测数据时,共享表征的多任务学习在性能上是否具有优势?
  • RQ3在双流架构中融合RGB与光流是否优于单流或独立训练方法,在运动分割与检测任务中表现更优?
  • RQ4所提方法在非车载数据集(如DAVIS)上的泛化能力如何?与当前最先进的无监督视频分割模型相比表现如何?
  • RQ5模型能否仅基于运动线索检测此前未见过的物体类别,从而实现对罕见或未训练车辆的鲁棒识别?

主要发现

  • 与KITTI MOD数据集上的MPNet相比,检测与运动分割任务的联合训练使mAP提升21.5%,最终mAP达到62.57%。
  • 采用RGB与光流输入的双流架构,通过联合训练,mAP从52.5%提升至62.57%,显著优于独立训练方法。
  • 在Titan X GPU上实现8 fps的推理速度,远超此前方法每帧需长达50分钟的处理时间。
  • 在DAVIS基准上,MODNet不使用CRF时mIoU达63.88%,使用CRF后提升至66.0%,优于大多数无监督方法,即使主评估未使用后处理。
  • 使用KITTI MOD这一包含真实相机运动与复杂场景的真实世界数据集,相比MPNet所用的合成数据,模型泛化能力更强。
  • 模型展现出强大的零样本泛化能力,可仅基于运动线索检测未训练过的物体类别(如工程卡车),实现对罕见或未见车辆的鲁棒识别。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。