[论文解读] Recurrent Neural Networks With Limited Numerical Precision
本文研究了在循环神经网络(RNNs)训练过程中进行低精度权重量化,评估了随机与确定性二值化、三值化、幂2-三值化以及一种新型指数量化方法。研究发现,三值化及其变体显著优于二值化,在语音和语言任务上实现了与全精度模型相当或更优的准确率,从而可在低功耗硬件上实现高效部署。
Recurrent Neural Networks (RNNs) produce state-of-art performance on many machine learning tasks but their demand on resources in terms of memory and computational power are often high. Therefore, there is a great interest in optimizing the computations performed with these models especially when considering development of specialized low-power hardware for deep networks. One way of reducing the computational needs is to limit the numerical precision of the network weights and biases. This has led to different proposed rounding methods which have been applied so far to only Convolutional Neural Networks and Fully-Connected Networks. This paper addresses the question of how to best reduce weight precision during training in the case of RNNs. We present results from the use of different stochastic and deterministic reduced precision training methods applied to three major RNN types which are then tested on several datasets. The results show that the weight binarization methods do not work with the RNNs. However, the stochastic and deterministic ternarization, and pow2-ternarization methods gave rise to low-precision RNNs that produce similar and even higher accuracy on certain datasets therefore providing a path towards training more efficient implementations of RNNs in specialized hardware.
研究动机与目标
- 探究此前用于前馈网络和卷积网络的低精度权重量化技术是否可成功应用于RNN的训练过程。
- 评估降低数值精度对三种主流RNN架构(普通RNN、GRU和LSTM)性能的影响。
- 确定哪些量化方法(二值化、三值化、幂2-三值化、指数量化)能在RNN中实现稳定且准确的训练。
- 通过降低精度以最小化内存和计算需求,实现RNN在低功耗嵌入式硬件上的高效部署。
- 为所提出的量化方法提供开源代码,以支持量化RNN训练的可复现性与进一步研究。
提出的方法
- 应用四种权重量化方法:随机与确定性二值化(BinaryConnect)、三值化(TernaryConnect)、幂2-三值化,以及一种新型指数量化方法。
- 在训练过程中保持权重和偏置的全精度副本以累积梯度,同时使用低精度版本进行前向和反向传播。
- 在随机变体中使用随机采样生成低精度权重,在确定性变体中使用阈值化方法。
- 在基准数据集上使用标准RNN架构(普通RNN、GRU、LSTM)和标准训练协议(Adam优化器、Glorot初始化)进行实验。
- 采用标准指标评估性能:语音识别任务使用词错误率(WER),语言建模任务使用交叉熵和BPC。
- 提出指数量化作为一种新方法,通过指数缩放将实数值权重映射到一组离散值,提升了RNN中的训练稳定性。
实验结果
研究问题
- RQ1在RNN训练中,是否可以成功应用随机与确定性权重二值化而不会导致性能显著下降?
- RQ2三值化与幂2-三值化方法是否能在RNN中实现稳定且准确的训练,特别是在大规模数据集上?
- RQ3为何二值化在RNN中失败而三值化成功?权重方差在这一差异中扮演何种角色?
- RQ4低精度RNN是否能实现与全精度基线模型相当或更优的性能,尤其是在过拟合情形下?
- RQ5量化级别选择(例如-1,0,1 与 -0.5,0,0.5)如何影响RNN的收敛性和准确性?
主要发现
- 二值化在RNN中失败,随机二值化导致训练不稳定且收敛性差,尤其在GRUs和LSTMs中表现明显。
- 三值化及其变体(幂2-三值化、指数量化)在TIDIGITS和PTB数据集上实现了与全精度基线模型相当或更优的准确率。
- 在WSJ语音识别数据集上,幂2-三值化的LSTM模型在87个周期后达到10.49%的词错误率(WER),优于全精度基线模型在60个周期时的11.16%。
- 在TIDIGITS数据集上,随机三值化方法实现了98.23%的top-1准确率,几乎与全精度基线持平,并在PTB数据集的BPC指标上优于全精度基线0.133 BPC。
- 三值化成功的原因在于其相比二值化显著降低了加权和的方差,这一点在RNN中尤为重要,因为权重在时间上被反复使用。
- 指数量化表现出色,尤其在TIDIGITS实验中,表明其作为RNN量化的一种有前景的替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。