QUICK REVIEW

[论文解读] Fast Scene Understanding for Autonomous Driving

Davy Neven, Bert De Brabandere|arXiv (Cornell University)|Aug 8, 2017

Advanced Neural Network Applications参考文献 19被引用 49

一句话总结

本文提出了一种基于 ENet 的实时多任务神经网络，联合执行语义分割、实例分割和单目深度估计，用于自动驾驶。通过共享编码器并使用分支解码器，该方法在 Cityscapes 数据集上以 1024×512 分辨率实现了 21 fps 的推理速度，仅带来极少的精度损失，相比单任务模型在速度和内存效率方面表现更优，同时在所有任务上均保持了具有竞争力的性能。

ABSTRACT

Most approaches for instance-aware semantic labeling traditionally focus on accuracy. Other aspects like runtime and memory footprint are arguably as important for real-time applications such as autonomous driving. Motivated by this observation and inspired by recent works that tackle multiple tasks with a single integrated architecture, in this paper we present a real-time efficient implementation based on ENet that solves three autonomous driving related tasks at once: semantic scene segmentation, instance segmentation and monocular depth estimation. Our approach builds upon a branched ENet architecture with a shared encoder but different decoder branches for each of the three tasks. The presented method can run at 21 fps at a resolution of 1024x512 on the Cityscapes dataset without sacrificing accuracy compared to running each task separately.

研究动机与目标

解决自动驾驶系统中对实时、低内存场景理解的需求。
相比依赖 VGG 或 FCN 等重型架构的现有多任务网络，降低推理时间和内存占用。
实现实时同步预测语义分割、实例分割和单目深度估计。
探究尽管架构简单，联合训练是否能提升各任务的性能。
为未来专注于自动驾驶中速度-精度权衡的多任务方法提供一种快速高效的基线。

提出的方法

将 ENet 作为三个下游任务（语义分割、实例分割和单目深度估计）的共享编码器。
构建分支解码器架构，其中每个分支处理来自共享编码器的特征以生成特定任务的输出。
使用 ENet 的第 1 和第 2 阶段作为共享编码器，随后连接 ENet 的第 3 阶段以及原始 ENet 解码器的第 4 和第 5 阶段，分别用于每个分支。
使用任务特定的损失函数进行端到端训练：语义分割使用交叉熵损失，实例分割使用基于掩码的损失，深度估计使用 L1 损失。
通过在所有任务间共享编码器来优化推理过程，相比训练独立模型，显著降低内存使用并提升推理速度。
在深度评估期间应用实例掩码，确保基于真实标签的深度指标仅在实际车辆区域计算，避免因检测错误带来的偏差。

实验结果

研究问题

RQ1轻量化、实时的神经网络架构能否高效地联合执行语义分割、实例分割和单目深度估计？
RQ2使用共享编码器的多任务训练是否能提升单个任务的性能，相比独立训练？
RQ3基于 ENet 的模型在不牺牲精度的前提下，能否在高分辨率城市驾驶场景中实现实时推理（≥20 fps）？
RQ4在速度、内存使用和所有三项任务的精度方面，该方法与最先进方法相比表现如何？
RQ5联合训练能否在保持或提升精度的同时，显著减少内存占用和推理时间？

主要发现

该多任务模型在单张 GPU 上以 1024×512 分辨率实现 21 fps 的推理速度，相比独立模型（12 fps）速度提升一倍以上，内存占用从 2.6 GB 降低至 1.2 GB。
联合训练下，语义分割的 mIoU 从 58.3% 略微提升至 59.3%，表明多任务学习带来了性能增益。
联合训练使实例分割的 AP 从 0.20% 提升至 0.21%，显示出微小但一致的改进。
在 100 米内深度估计的平均绝对误差（MAE）为 7.5 米，50 米内为 3.5 米，25 米内为 1.5 米，在 25 米范围内优于先前工作。
尽管采用轻量化架构，该模型在深度估计方面仍表现出具有竞争力的性能，尤其在基于真实标签实例掩码的评估中，其结果可与更复杂模型相媲美。
本研究证明，联合训练可提升各任务性能并显著降低计算成本，使其适用于实时自动驾驶系统。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。