QUICK REVIEW

[论文解读] Real-time Joint Object Detection and Semantic Segmentation Network for Automated Driving

Ganesh Sistu, Isabelle Leang|arXiv (Cornell University)|Jan 12, 2019

Advanced Neural Network Applications参考文献 10被引用 32

一句话总结

该论文提出了一种实时联合深度学习架构，通过共享的轻量化ResNet10类似编码器，同时执行目标检测与语义分割，检测头采用YOLOv2风格，分割头采用FCN8风格。该方法在低功耗嵌入式系统上实现了30 fps的推理速度，同时在KITTI、Cityscapes及一个私有鱼眼图像数据集上保持了与独立网络相当的精度。

ABSTRACT

Convolutional Neural Networks (CNN) are successfully used for various visual perception tasks including bounding box object detection, semantic segmentation, optical flow, depth estimation and visual SLAM. Generally these tasks are independently explored and modeled. In this paper, we present a joint multi-task network design for learning object detection and semantic segmentation simultaneously. The main motivation is to achieve real-time performance on a low power embedded SOC by sharing of encoder for both the tasks. We construct an efficient architecture using a small ResNet10 like encoder which is shared for both decoders. Object detection uses YOLO v2 like decoder and semantic segmentation uses FCN8 like decoder. We evaluate the proposed network in two public datasets (KITTI, Cityscapes) and in our private fisheye camera dataset, and demonstrate that joint network provides the same accuracy as that of separate networks. We further optimize the network to achieve 30 fps for 1280x384 resolution image.

研究动机与目标

解决自动驾驶系统中实时语义分割与目标检测的计算瓶颈问题。
通过共享编码器联合训练检测与分割任务，提升效率与可扩展性。
在低功耗嵌入式系统上实现30 fps的实时推理，同时不牺牲精度。
证明多任务学习结合加权损失平衡可在两项任务上均实现具有竞争力的性能。
在多样化数据集上验证该架构，包括公开基准数据集与私有鱼眼相机数据集。

提出的方法

采用基于小型ResNet10类似架构的共享编码器，用于检测与分割任务。
检测头采用受YOLOv2启发的解码器，基于锚点预测边界框。
分割头采用FCN8风格的解码器，结合跳跃连接实现密集像素级预测。
采用多任务学习框架，通过加权和（w_seg = 1, 10, 100）结合分割与检测损失，以平衡损失尺度。
模型优化包括通道剪枝、最小化跳跃连接，以及仅对地平线以下区域进行分割，以降低内存与计算开销。
网络使用ADAM优化器进行训练，分割任务采用分类交叉熵损失，检测任务采用均方误差损失。

实验结果

研究问题

RQ1共享编码器架构能否在目标检测与语义分割两项任务上达到与独立网络相当的精度？
RQ2采用加权损失平衡的多任务学习对两项任务的性能有何影响？
RQ3联合网络能否在低功耗嵌入式SoC上实现30 fps的实时推理，同时保持高精度？
RQ4仅对图像下半部分进行分割是否能提升效率而不造成显著精度损失？
RQ5该联合网络在多样化数据集（包括真实世界与鱼眼相机数据）上的泛化能力如何？

主要发现

多任务网络在KITTI分割任务上达到0.8172的平均IoU，在KITTI检测任务上达到0.6112的mAP，精度与单任务基线相当或略低，但效率显著提升。
在Cityscapes数据集上，MTL 100配置实现了55.55%的平均IoU（分割）与23.55%的mAP（检测），表明加权损失提升了分割性能。
在私有鱼眼数据集上，MTL 100配置实现了75.27%的平均IoU（分割）与45.9%的mAP（检测），证明其在非标准相机输入下的鲁棒性。
优化后的网络在低功耗嵌入式系统上以1280x384分辨率实现了30 fps的推理速度，满足自动驾驶的实时性要求。
消融实验表明，加权损失平衡（w_seg = 100）显著提升了分割性能，尤其在分割损失尺度较高的数据集中表现更优。
联合架构通过共享编码器显著降低了计算与内存开销，使资源受限的车载平台得以部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。