QUICK REVIEW

[论文解读] CBinfer: Change-Based Inference for Convolutional Neural Networks on Video Data

Lukas Cavigelli, Philippe Degen|arXiv (Cornell University)|Jan 1, 2017

Advanced Neural Network Applications参考文献 43被引用 6

一句话总结

本文提出CBinfer，一种针对静态摄像头视频的卷积神经网络（CNN）基于变化的推理方法，通过利用像素变化的时空稀疏性来加速处理。通过仅在帧间变化区域选择性计算，该方法在Tegra X1平台上实现了相较于cuDNN 8.6倍的加速，精度损失低于0.1%，并实现了10倍更高的能效（328 GOp/s/W），使嵌入式系统无需微调即可实现CNN推理的实时处理。

ABSTRACT

Extracting per-frame features using convolutional neural networks for real-time processing of video data is currently mainly performed on powerful GPU-accelerated workstations and compute clusters. However, there are many applications such as smart surveillance cameras that require or would benefit from on-site processing. To this end, we propose and evaluate a novel algorithm for change-based evaluation of CNNs for video data recorded with a static camera setting, exploiting the spatio-temporal sparsity of pixel changes. We achieve an average speed-up of 8.6x over a cuDNN baseline on a realistic benchmark with a negligible accuracy loss of less than 0.1% and no retraining of the network. The resulting energy efficiency is 10x higher than that of per-frame evaluation and reaches an equivalent of 328 GOp/s/W on the Tegra X1 platform.

研究动机与目标

在计算和功耗受限的嵌入式系统上，实现高分辨率视频的实时、高效CNN推理。
解决视频监控等应用中CNN推理计算成本过高的挑战。
利用静态摄像头中像素变化的时空稀疏性，减少冗余计算。
在不微调网络或牺牲精度的前提下，实现显著的加速和能效提升。
证明在设备端、近传感器处理在智能监控和无人机监控等应用中的可行性。

提出的方法

该方法通过在连续帧之间使用阈值差分操作检测像素变化，实现基于变化的推理。
通过仅计算变化输入区域的输出更新，将变化传播至每个卷积层，避免全层重新计算。
采用基于矩阵乘法的方法，利用变化的输入块和对应滤波器计算更新的特征图，借助cuBLAS实现GPU优化计算。
在每一层应用变化检测以保持精度并防止误差传播，通过调优阈值以最小化误分类。
该算法仅处理每一层中的变化像素，显著减少了乘加操作的数量。
该框架在GPU上实现，使用优化内核，并可无缝集成至现有的CNN推理流水线。

实验结果

研究问题

RQ1能否利用静态摄像头中像素变化的时空稀疏性，在不微调网络的前提下加速CNN推理？
RQ2与全帧处理相比，基于变化的推理可实现的最大加速比和能效提升是多少？
RQ3变化传播如何影响精度？何种阈值可确保可忽略的精度损失？
RQ4该方法能否在降低嵌入式平台计算负载的同时保持高吞吐量？
RQ5调整变化检测参数时，吞吐量与精度之间的权衡关系如何？

主要发现

在真实城市视频监控基准测试中，CBinfer相较于cuDNN基线实现了平均8.6倍的加速，精度损失低于0.1%。
能效提升10倍，达到Tegra X1平台上的328 GOp/s/W，而基线为32.0 GOp/s/W。
变化检测的计算开销极低，仅占第3层总时间的22%，远低于其带来的计算减少收益。
在每一层应用变化检测后，第2层的变化像素数减少6.8倍（从7.57%降至1.11%），第3层减少1.33倍（从2.58%降至1.94%）。
大部分计算时间转移至后期层（如池化和分类层），其占总时间的36%，表明这些层成为新的优化目标。
通过聚焦于变化区域的计算，该方法保持了高GPU利用率，GPU在更新输出的乘加操作上达到满负载。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。