QUICK REVIEW

[论文解读] Towards High Performance Video Object Detection for Mobiles

Xizhou Zhu, Jifeng Dai|arXiv (Cornell University)|Apr 16, 2018

Advanced Neural Network Applications参考文献 39被引用 35

一句话总结

该论文提出了一种轻量级、端到端的移动设备视频目标检测系统，利用稀疏关键帧、极小的光流网络（Light Flow）以及光流引导的GRU进行特征聚合。该系统在移动硬件（华为Mate 8）上实现了25.6 fps的推理速度和60.2%的mAP，为移动平台上的实时高精度视频目标检测树立了新的SOTA标准。

ABSTRACT

Despite the recent success of video object detection on Desktop GPUs, its architecture is still far too heavy for mobiles. It is also unclear whether the key principles of sparse feature propagation and multi-frame feature aggregation apply at very limited computational resources. In this paper, we present a light weight network architecture for video object detection on mobiles. Light weight image object detector is applied on sparse key frames. A very small network, Light Flow, is designed for establishing correspondence across frames. A flow-guided GRU module is designed to effectively aggregate features on key frames. For non-key frames, sparse feature propagation is performed. The whole network can be trained end-to-end. The proposed system achieves 60.2% mAP score at speed of 25.6 fps on mobiles (e.g., HuaWei Mate 8).

研究动机与目标

解决在计算资源有限的移动设备上部署高精度视频目标检测的挑战。
探究在极端计算约束下，稀疏特征传播与多帧特征聚合是否依然有效。
设计一种在移动硬件上实现高精度与实时推理速度的系统。
将轻量级图像检测、光流估计与时间特征聚合统一为一个可端到端训练的架构。
与现有方法相比，在移动视频目标检测中显著改善速度-精度权衡。

提出的方法

仅在稀疏关键帧上应用轻量级图像目标检测器（基于Light-Head R-CNN和深度可分离卷积），以降低计算负载。
提出Light Flow，一种极小的深度神经网络，用于帧间实时光流估计，专为移动推理优化。
设计光流引导的GRU模块，利用光流预测对齐特征，实现跨关键帧的特征聚合。
在非关键帧上使用Light Flow估计的光流执行稀疏特征传播，将特征从关键帧传递至其他帧。
端到端训练整个系统，联合优化检测、光流估计与特征聚合。
采用10帧的关键帧间隔，并调整输入分辨率以平衡速度与精度，光流网络的分辨率设为检测网络的一半。

实验结果

研究问题

RQ1在移动设备的极端计算约束下，稀疏特征传播与多帧特征聚合的原理是否仍能有效应用？
RQ2如何设计一种轻量级光流估计网络，以实现实时推理，同时保持足够的精度用于特征对齐？
RQ3在移动平台的内存与速度限制下，光流引导的GRU模块能否有效聚合长时序特征？
RQ4当结合关键帧检测、基于光流的传播与时间聚合时，移动设备上视频目标检测的可实现速度-精度权衡如何？
RQ5与分阶段或非端到端方法相比，统一系统端到端训练是否能显著提升移动视频检测的性能？

主要发现

所提系统在ImageNet VID验证集上实现了60.2%的mAP，推理速度达25.6 fps（华为Mate 8），为移动设备实时视频目标检测树立了新的SOTA标准。
该系统比之前最佳方法（Fast YOLO）快一个数量级，同时保持或超越其精度，分别为0.3 fps与25.6 fps。
YOLOv2、SSDLite与Tiny YOLO的mAP得分较低（分别为58.7%、57.1%与44.1%），且帧率远慢（分别为0.3、3.8与2.2 fps），证明了所提方法的优越性。
Light Flow的使用使移动设备上实现实时光流估计成为可能，从而在实践中使稀疏特征传播可行。
光流引导的GRU模块能有效聚合关键帧间的特征，在不显著增加内存或计算开销的前提下提升检测精度。
消融实验证实，完整流水线的端到端训练相比非端到端或分阶段训练能带来更好的性能表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。