QUICK REVIEW

[论文解读] LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition

Zuxuan Wu, Caiming Xiong|arXiv (Cornell University)|Dec 3, 2019

Human Pose and Action Recognition被引用 32

一句话总结

LiteEval 是一种用于资源高效视频识别的粗到细框架，通过使用轻量级CNN提取粗粒度特征，并在需要时仅调用更强的CNN进行精细特征提取，由条件门控模块动态控制计算分配。该方法在FCVID和ActivityNet上分别实现了51.8%和51.3%的计算量减少，同时保持了最先进精度，并支持在线和离线推理。

ABSTRACT

This paper presents LiteEval, a simple yet effective coarse-to-fine framework for resource efficient video recognition, suitable for both online and offline scenarios. Exploiting decent yet computationally efficient features derived at a coarse scale with a lightweight CNN model, LiteEval dynamically decides on-the-fly whether to compute more powerful features for incoming video frames at a finer scale to obtain more details. This is achieved by a coarse LSTM and a fine LSTM operating cooperatively, as well as a conditional gating module to learn when to allocate more computation. Extensive experiments are conducted on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate LiteEval requires substantially less computation while offering excellent classification accuracy for both online and offline predictions.

研究动机与目标

解决视频识别中计算成本过高的挑战，特别是在移动设备和嵌入式系统等资源受限环境中的应用。
克服固定计算量模型的局限性，即对所有视频帧均施加相同处理，无论其复杂度如何。
实现基于输入难度自适应计算的在线与离线视频分类，支持计算量动态扩展。
通过避免在简单帧上进行不必要的高复杂度特征计算，降低能耗并提升效率。
开发一种可微分、端到端可训练的框架，支持实时部署与推理过程中的动态决策。

提出的方法

使用轻量级CNN从下采样后的视频帧中提取粗粒度特征，实现高效的初始处理。
采用粗粒度LSTM（cLSTM）在帧间保持粗粒度特征的时间上下文。
引入条件门控模块，基于粗粒度特征和隐藏状态判断是否需要计算精细特征。
仅当门控模块判定需要更高精度时，才使用强大的CNN提取细粒度特征。
当计算精细特征时，利用精细LSTM（fLSTM）建模其长期依赖关系，并与cLSTM同步以保留全部历史上下文。
当未计算精细特征时，将fLSTM与cLSTM同步，确保fLSTM保留所有先前信息以支持预测。

实验结果

研究问题

RQ1粗到细框架能否在不损失精度的前提下，动态分配视频识别中的计算量以减少FLOPs？
RQ2条件门控机制在根据输入复杂度决定何时使用高成本精细特征方面的有效性如何？
RQ3将精细LSTM与粗粒度LSTM同步是否能有效保留关键时间信息并提升性能？
RQ4在大规模视频基准上，计算量可被减少到何种程度，同时仍保持最先进精度？
RQ5此类框架能否在在线（流式）和离线（批量）视频识别场景中均有效应用？

主要发现

LiteEval 在 FCVID 上实现 65.7% 的 top-1 准确率，在 ActivityNet 上实现 66.1%，与强基线模型相当或更优，同时分别将计算量减少了 51.8% 和 51.3%。
与均匀采样基线相比，该模型将 FLOPs 减少 50% 以上，且精度下降可忽略，证明其在效率与精度之间具有出色的权衡能力。
门控模块的阈值超参数 γ 具有显著影响：过低（如 0.01）会损害性能，而 ≤0.1 的取值仍能获得优异结果，表明帧间存在冗余。
fLSTM 与 cLSTM 的同步至关重要——若无同步，准确率将下降至 65.7%，证实其在保留时间上下文中的关键作用。
在精细LSTM中使用2,048个隐藏单元可获得最佳性能，且LSTM对FLOPs的贡献可忽略不计（仅占总计算量的0.06%），进一步确认CNN特征提取是主要计算瓶颈。
该框架完全可微分，适用于在线推理，而基于策略的方法则需访问未来帧或依赖强化学习，难以实现类似部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。