QUICK REVIEW

[论文解读] Mobile Video Object Detection with Temporally-Aware Feature Maps

Mason Liu, Menglong Zhu|arXiv (Cornell University)|Nov 17, 2017

Advanced Neural Network Applications参考文献 36被引用 43

一句话总结

本文通过将卷积长短期记忆（LSTM）网络集成到单阶段检测框架中，提出了一种轻量化、实时的视频目标检测模型，适用于移动和嵌入式设备。该模型引入了Bottleneck-LSTM层，在利用相邻帧的时间上下文信息以优化特征图的同时，降低了计算成本，实现了高效模型中的最先进精度，并在移动CPU上达到最高15 FPS的推理速度。

ABSTRACT

This paper introduces an online model for object detection in videos designed to run in real-time on low-powered mobile and embedded devices. Our approach combines fast single-image object detection with convolutional long short term memory (LSTM) layers to create an interweaved recurrent-convolutional architecture. Additionally, we propose an efficient Bottleneck-LSTM layer that significantly reduces computational cost compared to regular LSTMs. Our network achieves temporal awareness by using Bottleneck-LSTMs to refine and propagate feature maps across frames. This approach is substantially faster than existing detection methods in video, outperforming the fastest single-frame models in model size and computational cost while attaining accuracy comparable to much more expensive single-frame models on the Imagenet VID 2015 dataset. Our model reaches a real-time inference speed of up to 15 FPS on a mobile CPU.

研究动机与目标

开发一种针对计算资源有限的移动和嵌入式平台定制的高效、实时视频目标检测系统。
利用视频序列中的时间连续性，提升检测的稳定性和精度，同时避免过度增加模型复杂度。
将循环网络直接集成到特征提取过程中，而非对检测结果进行后处理。
在保持单帧检测器速度和效率的同时，通过轻量级循环结构引入时间感知能力。
证明特征图中的时间上下文可提升真实世界视频场景中对遮挡和噪声输入的鲁棒性。

提出的方法

将单阶段目标检测器（SSD）与卷积LSTM（ConvLSTM）结合，构建一种在帧间优化特征图的循环-卷积架构。
提出Bottleneck-LSTM层，通过在LSTM单元内应用深度可分离卷积，显著减少参数量和乘加操作数。
将卷积层的输出作为特征图假设，随后由LSTM利用前序帧的上下文信息进行优化。
在中间特征层应用循环单元，实现在最终检测头之前对特征进行时间优化。
采用端到端联合训练策略，联合优化空间检测与时间一致性。
使用自定义的TensorFlow推理实现，在移动CPU（如搭载Snapdragon 835的Pixel 2）上部署模型，以测量真实设备上的实时性能。

实验结果

研究问题

RQ1能否在不牺牲推理速度的前提下，将轻量级循环结构有效集成到单阶段目标检测框架中，以提升视频检测性能？
RQ2与单帧基线相比，中间特征图中的时间上下文在多大程度上提升了检测精度和稳定性？
RQ3如何使循环单元在计算效率上足够优化，以实现在移动CPU上的实时运行，同时保持性能？
RQ4时间上下文的使用是否能提升对输入噪声（如遮挡或帧级损坏）的鲁棒性？
RQ5统一的、端到端可训练架构是否能在移动平台上同时实现比基于后处理的跟踪方法更高的速度和精度？

主要发现

所提模型在ImageNet VID 2015验证集上达到54.4% mAP，仅需11.3亿次MAC和324万个参数，优于MobileNet-SSD（α=1）在mAP和效率两方面的表现。
在移动CPU（Snapdragon 835大核）上，模型最高可达到15 FPS，超过所有测试的单帧基线模型的推理速度。
在相同硬件上，α=0.5的模型在LITTLE核心上实现140ms的推理时间，证明其在低功耗设备上的可行性。
在人工遮挡（p=0.75）条件下，模型保持33.3% mAP，显著优于MobileNet-SSD的24.6% mAP，表明时间建模带来更强的鲁棒性。
与标准LSTM相比，Bottleneck-LSTM层将计算成本降低80%以上，同时保持性能，使实时部署成为可能。
定性结果表明，与单帧检测器相比，该模型在帧间产生更稳定的检测结果，尤其在存在运动模糊或部分遮挡的挑战性序列中表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。