QUICK REVIEW

[论文解读] FisheyeMODNet: Moving Object Detection on Surround-view Cameras for Autonomous Driving

Marie Yahiaoui|arXiv (Cornell University)|Aug 30, 2019

Advanced Neural Network Applications参考文献 17被引用 33

一句话总结

本文提出FisheyeMODNet，一种轻量级双流卷积神经网络（CNN），用于自动驾驶汽车鱼眼环视图像中的运动目标检测（MOD）。该模型通过在连续鱼眼图像帧上进行端到端训练，隐式区分自身运动与目标运动，在1 TOPS嵌入式系统上实现了15 fps的推理速度，mIoU达到69.5%，IoU达到40%。同时，本文发布了首个公开的鱼眼MOD数据集，包含5,139帧带标注的图像。

ABSTRACT

Moving Object Detection (MOD) is an important task for achieving robust autonomous driving. An autonomous vehicle has to estimate collision risk with other interacting objects in the environment and calculate an optional trajectory. Collision risk is typically higher for moving objects than static ones due to the need to estimate the future states and poses of the objects for decision making. This is particularly important for near-range objects around the vehicle which are typically detected by a fisheye surroundview system that captures a 360± view of the scene. In this work, we propose a CNN architecture for moving object detection using fisheye images that were captured in autonomous driving environment. As motion geometry is highly non-linear and unique for fisheye cameras, we will make an improved version of the current dataset public to encourage further research. To target embedded deployment, we design a lightweight encoder sharing weights across sequential images. The proposed network runs at 15 fps using Jetston Nvidia TX2 embedded GPU at accuracy of 40% IoU and 69.5% mIoU.

研究动机与目标

为解决鱼眼相机图像中因强非线性畸变和复杂运动几何带来的运动目标检测挑战。
开发一种轻量级、实时的深度学习模型，适用于车载嵌入式平台部署。
创建并发布首个包含鱼眼环视图像中运动目标二值掩码的公开汽车数据集。
研究有效的训练策略与数据增强方法，以提升鱼眼数据上的MOD精度。
通过加权交叉熵损失缓解鱼眼场景中静态像素与运动像素之间的类别不平衡问题。

提出的方法

模型采用双流编码器-解码器架构，联合处理两帧时间上相邻的鱼眼图像，以编码运动与语义信息。
编码器基于ShuffleNet，采用逐点分组卷积与通道混洗操作，在保持精度的同时降低计算成本。
通过三层转置卷积对特征图进行上采样，生成像素级的二值分割掩码，用于区分运动与静态物体。
应用加权交叉熵损失以缓解类别不平衡问题，其中静态像素数量远超运动像素。
在两个流编码器之间共享权重，以最小精度损失为代价显著减少模型大小与推理成本。
采用半自动标注流程，利用LiDAR点云与相机标定信息，从目标边界框生成真实标签二值掩码。

实验结果

研究问题

RQ1在矩形图像上预训练的深度学习模型能否泛化到具有极端畸变与非线性运动几何的鱼眼相机输入？
RQ2与基于光流的方法相比，对连续鱼眼图像进行端到端训练在运动分割任务中的有效性如何？
RQ3数据增强策略——尤其是平衡静态与运动目标场景——对鱼眼数据上MOD精度的影响如何？
RQ4在嵌入式平台上，双流编码器之间的权重共享在多大程度上可降低模型复杂度而不损害性能？
RQ5所提方法在1 TOPS车载嵌入式系统上的实时推理速度与精度表现如何？

主要发现

在KITTI数据集（矩形图像）上预训练的模型在鱼眼图像上的IoU仅为10%，表明其对鱼眼几何的泛化能力极差。
在新数据集的3,638帧鱼眼图像上进行训练后，IoU提升至39.8%，表明领域特定数据对性能至关重要。
采用平衡静态与运动目标场景的数据增强策略后，mIoU提升至70%，IoU提升至42%，表明类别平衡可显著提升检测鲁棒性。
双流编码器间实施权重共享后，模型大小显著减小，仅导致IoU下降0.2%，实现了嵌入式平台的高效部署。
最终模型在1 TOPS车载嵌入式系统上实现15 fps的推理速度，满足自动驾驶的实时性要求。
主要失败模式为因静态行人出现微小动作而产生误报，凸显了在真实数据中定义运动阈值的挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。