Skip to main content
QUICK REVIEW

[论文解读] CBinfer: Change-Based Inference for Convolutional Neural Networks on Video Data

Lukas Cavigelli, Philippe Degen|arXiv (Cornell University)|Jan 1, 2017
Advanced Neural Network Applications参考文献 43被引用 6
一句话总结

本文提出CBinfer,一种针对静态摄像头视频的卷积神经网络(CNN)基于变化的推理方法,通过利用像素变化的时空稀疏性来加速处理。通过仅在帧间变化区域选择性计算,该方法在Tegra X1平台上实现了相较于cuDNN 8.6倍的加速,精度损失低于0.1%,并实现了10倍更高的能效(328 GOp/s/W),使嵌入式系统无需微调即可实现CNN推理的实时处理。

ABSTRACT

Extracting per-frame features using convolutional neural networks for real-time processing of video data is currently mainly performed on powerful GPU-accelerated workstations and compute clusters. However, there are many applications such as smart surveillance cameras that require or would benefit from on-site processing. To this end, we propose and evaluate a novel algorithm for change-based evaluation of CNNs for video data recorded with a static camera setting, exploiting the spatio-temporal sparsity of pixel changes. We achieve an average speed-up of 8.6x over a cuDNN baseline on a realistic benchmark with a negligible accuracy loss of less than 0.1% and no retraining of the network. The resulting energy efficiency is 10x higher than that of per-frame evaluation and reaches an equivalent of 328 GOp/s/W on the Tegra X1 platform.

研究动机与目标

  • 在计算和功耗受限的嵌入式系统上,实现高分辨率视频的实时、高效CNN推理。
  • 解决视频监控等应用中CNN推理计算成本过高的挑战。
  • 利用静态摄像头中像素变化的时空稀疏性,减少冗余计算。
  • 在不微调网络或牺牲精度的前提下,实现显著的加速和能效提升。
  • 证明在设备端、近传感器处理在智能监控和无人机监控等应用中的可行性。

提出的方法

  • 该方法通过在连续帧之间使用阈值差分操作检测像素变化,实现基于变化的推理。
  • 通过仅计算变化输入区域的输出更新,将变化传播至每个卷积层,避免全层重新计算。
  • 采用基于矩阵乘法的方法,利用变化的输入块和对应滤波器计算更新的特征图,借助cuBLAS实现GPU优化计算。
  • 在每一层应用变化检测以保持精度并防止误差传播,通过调优阈值以最小化误分类。
  • 该算法仅处理每一层中的变化像素,显著减少了乘加操作的数量。
  • 该框架在GPU上实现,使用优化内核,并可无缝集成至现有的CNN推理流水线。

实验结果

研究问题

  • RQ1能否利用静态摄像头中像素变化的时空稀疏性,在不微调网络的前提下加速CNN推理?
  • RQ2与全帧处理相比,基于变化的推理可实现的最大加速比和能效提升是多少?
  • RQ3变化传播如何影响精度?何种阈值可确保可忽略的精度损失?
  • RQ4该方法能否在降低嵌入式平台计算负载的同时保持高吞吐量?
  • RQ5调整变化检测参数时,吞吐量与精度之间的权衡关系如何?

主要发现

  • 在真实城市视频监控基准测试中,CBinfer相较于cuDNN基线实现了平均8.6倍的加速,精度损失低于0.1%。
  • 能效提升10倍,达到Tegra X1平台上的328 GOp/s/W,而基线为32.0 GOp/s/W。
  • 变化检测的计算开销极低,仅占第3层总时间的22%,远低于其带来的计算减少收益。
  • 在每一层应用变化检测后,第2层的变化像素数减少6.8倍(从7.57%降至1.11%),第3层减少1.33倍(从2.58%降至1.94%)。
  • 大部分计算时间转移至后期层(如池化和分类层),其占总时间的36%,表明这些层成为新的优化目标。
  • 通过聚焦于变化区域的计算,该方法保持了高GPU利用率,GPU在更新输出的乘加操作上达到满负载。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。