QUICK REVIEW

[论文解读] Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

Mason Liu, Menglong Zhu|arXiv (Cornell University)|Mar 25, 2019

Advanced Neural Network Applications参考文献 40被引用 30

一句话总结

本文提出了一种基于记忆引导的交错式视频目标检测框架，将快速轻量的特征提取器与缓慢但精确的特征提取器相结合，利用ConvLSTM记忆模块在帧间融合特征。通过使用Q-learning学习自适应推理策略，该方法在Imagenet VID 2015上实现了最先进（SOTA）的准确率，同时在Pixel 3上达到72.3 FPS的推理速度，显著优于以往基于光流和固定比例的方法，在速度/准确率权衡方面表现更优，且无需依赖光流。

ABSTRACT

With a single eye fixation lasting a fraction of a second, the human visual system is capable of forming a rich representation of a complex environment, reaching a holistic understanding which facilitates object recognition and detection. This phenomenon is known as recognizing the "gist" of the scene and is accomplished by relying on relevant prior knowledge. This paper addresses the analogous question of whether using memory in computer vision systems can not only improve the accuracy of object detection in video streams, but also reduce the computation time. By interleaving conventional feature extractors with extremely lightweight ones which only need to recognize the gist of the scene, we show that minimal computation is required to produce accurate detections when temporal memory is present. In addition, we show that the memory contains enough information for deploying reinforcement learning algorithms to learn an adaptive inference policy. Our model achieves state-of-the-art performance among mobile methods on the Imagenet VID 2015 dataset, while running at speeds of up to 70+ FPS on a Pixel 3 phone.

研究动机与目标

解决在计算和能效受限的移动设备上实现实时、高精度视频目标检测的挑战。
探究时间记忆是否能通过使轻量级特征提取器频繁运行并仅带来最小精度损失，从而减少视频检测中的冗余计算。
在深度学习框架中融入人类视觉的生物直觉——即概貌识别可支持快速场景理解。
利用强化学习学习在快速与慢速特征提取器之间切换的自适应推理策略，以优化速度/准确率权衡。
通过采用基于记忆的无光流方法，消除对计算成本高且对运动敏感的光流的依赖。

提出的方法

该框架使用两个特征提取器：一个快速轻量的网络（f1）用于概貌识别，一个慢速但精确的网络（f0）用于详细检测。
两个提取器的特征通过一个作为ConvLSTM层实现的共享视觉记忆模块进行融合，以在帧间保持上下文信息。
系统采用交错推理策略，其中f1频繁运行，f0周期性运行，运行时机由学习到的策略控制。
使用深度Q-learning学习自适应交错策略，智能体根据当前帧内容和记忆状态决定何时运行f0。
策略网络通过一个兼顾检测准确率（mAP）和推理速度的奖励函数进行训练，以鼓励高效计算。
该模型针对移动设备部署进行了优化，在Pixel 3上实现高达72.3 FPS的推理速度，且不损失准确率。

实验结果

研究问题

RQ1基于记忆引导的框架，结合交错运行的快速与慢速特征提取器，是否能显著减少计算量，同时在视频流中保持高检测准确率？
RQ2共享视觉记忆的存在是否能使轻量级特征提取器即使频繁独立运行，也能保持可靠性能？
RQ3强化学习是否能有效用于学习自适应推理策略，根据场景复杂度动态选择快速或慢速特征提取器？
RQ4在极端交错比率下，记忆引导方法与基于光流的方法相比，在速度/准确率权衡方面表现如何，尤其在τ = 39时？
RQ5基于记忆引导的无光流方法是否能在不依赖光流或昂贵的中间特征变形的情况下，实现在移动设备上的实时性能？

主要发现

所提方法在Imagenet VID 2015基准上实现了移动设备方法中的最先进mAP（65.0），优于先前工作如Zhu et al. [39]。
该模型在Pixel 3手机上后处理优化后达到72.3 FPS，是当时已知最快的移动视频检测模型。
与固定策略相比，自适应强化学习策略将大模型（f0）的运行频率降低了高达80%，同时保持或提升了准确率。
在极端交错比率（τ = 39）下，本方法仅损失3.75 mAP，而Zhu et al. [39]的光流方法在τ = 20时损失至少4.5 mAP。
所学策略能智能地将更多计算资源分配给复杂场景，当小模型（f1）单独无法满足需求时，表现出有效的场景感知推理能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。