Skip to main content
QUICK REVIEW

[论文解读] On the Compression of Recurrent Neural Networks with an Application to LVCSR acoustic modeling for Embedded Speech Recognition

Rohit Prabhavalkar, Ouais Alsharif|arXiv (Cornell University)|Mar 25, 2016
Speech Recognition and Synthesis参考文献 27被引用 43
一句话总结

本文提出了一种基于联合奇异值分解(SVD)的循环神经网络(RNNs)压缩技术,特别针对嵌入式语音识别中的长短期记忆(LSTM)声学模型。通过联合分解循环权重矩阵和层间权重矩阵,该方法将模型大小减少至原始大小的三分之一,同时保持几乎可忽略的精度损失,实现了310万参数的模型,词错误率(WER)为12.9%,仅比基线模型高0.5%。

ABSTRACT

We study the problem of compressing recurrent neural networks (RNNs). In particular, we focus on the compression of RNN acoustic models, which are motivated by the goal of building compact and accurate speech recognition systems which can be run efficiently on mobile devices. In this work, we present a technique for general recurrent model compression that jointly compresses both recurrent and non-recurrent inter-layer weight matrices. We find that the proposed technique allows us to reduce the size of our Long Short-Term Memory (LSTM) acoustic model to a third of its original size with negligible loss in accuracy.

研究动机与目标

  • 为解决在内存和计算资源受限的移动设备上部署大型、高精度RNN声学模型的挑战。
  • 在不造成显著精度下降的前提下,减小模型大小和计算成本,以实现设备端语音识别。
  • 通过联合压缩RNN中的循环和非循环权重矩阵,推广现有矩阵分解技术。
  • 在真实嵌入式自动语音识别(ASR)环境中,评估基于SVD的压缩技术在LSTM声学模型上的有效性。
  • 通过模型压缩和量化,实现在移动设备上的高效、实时语音识别。

提出的方法

  • 该方法对每个RNN层中的循环权重矩阵 $W^{l}_{h}$ 和层间权重矩阵 $W^{l-1}_{x}$ 应用截断奇异值分解(SVD)。
  • 对于每一层,通过保留SVD中 $W^{l}_{h}$ 的解释方差分数 $\tau$ 确定投影矩阵的秩 $r^{l}$,使用公式(7)。
  • 使用域内数据对压缩后的模型进行微调,采用连接时序分类(CTC)和序列最小贝叶斯风险(sMBR)准则。
  • 该方法推广了Xue等人[8]的先前工作,将循环权重和层间权重联合压缩,而非分别处理。
  • 该技术应用于在谷歌交通数据中大规模、多风格听写数据集上训练的LSTM声学模型。
  • 模型压缩与权重量化相结合,进一步降低嵌入式部署的内存和计算需求。

实验结果

研究问题

  • RQ1能否通过联合SVD压缩RNN中的循环和层间权重矩阵,显著减小模型大小,同时保持极低的精度损失?
  • RQ2解释方差阈值 $\tau$ 的选择如何影响模型压缩与识别精度之间的权衡?
  • RQ3所提出的压缩技术是否能实现在移动硬件上的实时、设备端语音识别?
  • RQ4联合压缩循环和非循环权重是否优于单独压缩各个权重矩阵?
  • RQ5将LSTM声学模型压缩至原始大小的三分之一时,性能下降程度如何?

主要发现

  • 模型可压缩至原始大小的三分之一(从970万参数减少至310万参数),词错误率(WER)仅从12.4%上升至12.9%,增加0.5%。
  • 当 $\tau = 0.6$ 时,模型达到310万参数,WER为12.9%,相比基线实现310万参数的减少和67%的大小缩减。
  • 对于 $\tau \geq 0.7$,WER保持在基线的0.3%以内,表明在中等压缩水平下精度损失可忽略。
  • 当 $\tau \leq 0.5$ 时,性能显著下降,$\tau = 0.5$ 时WER上升至13.2%,表明模型保真度急剧下降。
  • 与等秩压缩方案相比,该方法表现更优,因为基于方差的逐层秩选择在相同参数预算下实现了更好的性能。
  • 结合权重量化后,压缩模型在最新移动设备上运行速度远超实时,支持实际的设备端部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。