Skip to main content
QUICK REVIEW

[论文解读] Fast Scene Understanding for Autonomous Driving

Davy Neven, Bert De Brabandere|arXiv (Cornell University)|Aug 8, 2017
Advanced Neural Network Applications参考文献 19被引用 49
一句话总结

本文提出了一种基于 ENet 的实时多任务神经网络,联合执行语义分割、实例分割和单目深度估计,用于自动驾驶。通过共享编码器并使用分支解码器,该方法在 Cityscapes 数据集上以 1024×512 分辨率实现了 21 fps 的推理速度,仅带来极少的精度损失,相比单任务模型在速度和内存效率方面表现更优,同时在所有任务上均保持了具有竞争力的性能。

ABSTRACT

Most approaches for instance-aware semantic labeling traditionally focus on accuracy. Other aspects like runtime and memory footprint are arguably as important for real-time applications such as autonomous driving. Motivated by this observation and inspired by recent works that tackle multiple tasks with a single integrated architecture, in this paper we present a real-time efficient implementation based on ENet that solves three autonomous driving related tasks at once: semantic scene segmentation, instance segmentation and monocular depth estimation. Our approach builds upon a branched ENet architecture with a shared encoder but different decoder branches for each of the three tasks. The presented method can run at 21 fps at a resolution of 1024x512 on the Cityscapes dataset without sacrificing accuracy compared to running each task separately.

研究动机与目标

  • 解决自动驾驶系统中对实时、低内存场景理解的需求。
  • 相比依赖 VGG 或 FCN 等重型架构的现有多任务网络,降低推理时间和内存占用。
  • 实现实时同步预测语义分割、实例分割和单目深度估计。
  • 探究尽管架构简单,联合训练是否能提升各任务的性能。
  • 为未来专注于自动驾驶中速度-精度权衡的多任务方法提供一种快速高效的基线。

提出的方法

  • 将 ENet 作为三个下游任务(语义分割、实例分割和单目深度估计)的共享编码器。
  • 构建分支解码器架构,其中每个分支处理来自共享编码器的特征以生成特定任务的输出。
  • 使用 ENet 的第 1 和第 2 阶段作为共享编码器,随后连接 ENet 的第 3 阶段以及原始 ENet 解码器的第 4 和第 5 阶段,分别用于每个分支。
  • 使用任务特定的损失函数进行端到端训练:语义分割使用交叉熵损失,实例分割使用基于掩码的损失,深度估计使用 L1 损失。
  • 通过在所有任务间共享编码器来优化推理过程,相比训练独立模型,显著降低内存使用并提升推理速度。
  • 在深度评估期间应用实例掩码,确保基于真实标签的深度指标仅在实际车辆区域计算,避免因检测错误带来的偏差。

实验结果

研究问题

  • RQ1轻量化、实时的神经网络架构能否高效地联合执行语义分割、实例分割和单目深度估计?
  • RQ2使用共享编码器的多任务训练是否能提升单个任务的性能,相比独立训练?
  • RQ3基于 ENet 的模型在不牺牲精度的前提下,能否在高分辨率城市驾驶场景中实现实时推理(≥20 fps)?
  • RQ4在速度、内存使用和所有三项任务的精度方面,该方法与最先进方法相比表现如何?
  • RQ5联合训练能否在保持或提升精度的同时,显著减少内存占用和推理时间?

主要发现

  • 该多任务模型在单张 GPU 上以 1024×512 分辨率实现 21 fps 的推理速度,相比独立模型(12 fps)速度提升一倍以上,内存占用从 2.6 GB 降低至 1.2 GB。
  • 联合训练下,语义分割的 mIoU 从 58.3% 略微提升至 59.3%,表明多任务学习带来了性能增益。
  • 联合训练使实例分割的 AP 从 0.20% 提升至 0.21%,显示出微小但一致的改进。
  • 在 100 米内深度估计的平均绝对误差(MAE)为 7.5 米,50 米内为 3.5 米,25 米内为 1.5 米,在 25 米范围内优于先前工作。
  • 尽管采用轻量化架构,该模型在深度估计方面仍表现出具有竞争力的性能,尤其在基于真实标签实例掩码的评估中,其结果可与更复杂模型相媲美。
  • 本研究证明,联合训练可提升各任务性能并显著降低计算成本,使其适用于实时自动驾驶系统。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。