[论文解读] Delta Networks for Optimized Recurrent Network Computation
本文提出了一种新型RNN架构——delta网络,仅在神经元激活值变化超过阈值时才传输激活值,从而大幅减少内存访问和计算量。通过利用自然输入中的时间稳定性,该方法在RNN推理中实现了高达100倍的加速,且精度损失可忽略不计,尤其在视频和语音处理任务中效果显著,因为这些任务中的激活值随时间变化缓慢。
Many neural networks exhibit stability in their activation patterns over time in response to inputs from sensors operating under real-world conditions. By capitalizing on this property of natural signals, we propose a Recurrent Neural Network (RNN) architecture called a delta network in which each neuron transmits its value only when the change in its activation exceeds a threshold. The execution of RNNs as delta networks is attractive because their states must be stored and fetched at every timestep, unlike in convolutional neural networks (CNNs). We show that a naive run-time delta network implementation offers modest improvements on the number of memory accesses and computes, but optimized training techniques confer higher accuracy at higher speedup. With these optimizations, we demonstrate a 9X reduction in cost with negligible loss of accuracy for the TIDIGITS audio digit recognition benchmark. Similarly, on the large Wall Street Journal speech recognition benchmark even existing networks can be greatly accelerated as delta networks, and a 5.7x improvement with negligible loss of accuracy can be obtained through training. Finally, on an end-to-end CNN trained for steering angle prediction in a driving dataset, the RNN cost can be reduced by a substantial 100X.
研究动机与目标
- 为降低循环神经网络(RNNs)的高计算和内存开销,这些网络需要在每个时间步存储和获取状态。
- 利用自然输入(如语音和视频)的时间稳定性,其激活值随时间缓慢变化。
- 开发一种面向训练优化的delta网络方法,在最小化内存访问和计算操作的同时保持高精度。
- 证明当激活值变化低于阈值时跳过冗余更新,可显著加速RNN。
提出的方法
- 通过将标准RNN中的密集矩阵-向量乘法替换为稀疏版本,重新构想delta网络,仅对激活值变化超过阈值的神经元进行更新。
- 基于阈值的delta机制通过仅对显著变化进行更新,抑制了瞬态近似误差,防止误差累积。
- 该方法使用有限阈值Θ控制稀疏性,确保仅当变化具有意义时才触发计算和内存访问。
- 在训练期间应用改进的反向传播算法,以优化网络在delta更新约束下的性能。
- 该方法应用于基于GRU的RNN,权重矩阵存储在片上内存中,仅当神经元的delta超过阈值时才被访问。
- 在TIDIGITS、Wall Street Journal和comma.ai驾驶数据集上评估该框架,结果显示在精度下降可忽略的情况下实现了显著加速。
实验结果
研究问题
- RQ1是否可以通过仅更新激活值变化超过阈值的神经元来加速RNN,从而降低内存和计算成本?
- RQ2阈值Θ的选择如何影响delta网络RNN中加速与精度之间的权衡?
- RQ3对RNN进行端到端训练以作为delta网络,是否能在真实世界的时间序列数据上实现高精度和显著加速?
- RQ4在语音和视频等自然输入中,时间冗余性在多大程度上可被利用以降低RNN推理成本?
- RQ5由于激活值和权重内存需求的差异,delta网络方法是否对RNN比对CNN更有效?
主要发现
- 在TIDIGITS语音识别基准测试中,通过优化训练,delta网络将计算成本降低了9倍,且精度损失可忽略不计。
- 在大型Wall Street Journal语音识别任务中,通过将网络重新训练为delta网络,实现了5.7倍的加速,且精度下降极小。
- 在端到端驾驶策略网络中,由于视觉特征具有高度的时间稳定性,RNN组件实现了100倍的加速,但系统级收益受限于主导的CNN计算成本。
- 该方法在不增加预测误差的情况下实现了显著加速,在comma.ai驾驶数据集上,当Θ介于0.1到0.25之间时观察到100倍加速。
- 该方法对RNN比对CNN更有效,因为RNN需要存储所有中间状态,使其更易于通过基于delta的优化进行改进。
- 本研究证明,将真实世界输入中的时间冗余性与鲁棒的delta网络训练相结合,可实现显著的效率提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。