Skip to main content
QUICK REVIEW

[论文解读] Quaternion Recurrent Neural Networks

Titouan Parcollet, Mirco Ravanelli|HAL (Le Centre pour la Communication Scientifique Directe)|Jun 12, 2018
Neural Networks and Applications被引用 42
一句话总结

本论文提出四元数值循环神经网络(QRNN)和四元数 LSTM(QLSTM),使用四元数代数建模外部和内部特征依赖,在 TIMIT 上比实值 RNN/LSTM 的参数更少得多,且取得更好的音素识别性能(以及 WSJ)。

ABSTRACT

Recurrent neural networks (RNNs) are powerful architectures to model sequential data, due to their capability to learn short and long-term dependencies between the basic elements of a sequence. Nonetheless, popular tasks such as speech or images recognition, involve multi-dimensional input features that are characterized by strong internal dependencies between the dimensions of the input vector. We propose a novel quaternion recurrent neural network (QRNN), alongside with a quaternion long-short term memory neural network (QLSTM), that take into account both the external relations and these internal structural dependencies with the quaternion algebra. Similarly to capsules, quaternions allow the QRNN to code internal dependencies by composing and processing multidimensional features as single entities, while the recurrent operation reveals correlations between the elements composing the sequence. We show that both QRNN and QLSTM achieve better performances than RNN and LSTM in a realistic application of automatic speech recognition. Finally, we show that QRNN and QLSTM reduce by a maximum factor of 3.3x the number of free parameters needed, compared to real-valued RNNs and LSTMs to reach better results, leading to a more compact representation of the relevant information.

研究动机与目标

  • 通过利用四元数代数来捕捉序列数据中的内部和外部依赖,推动多维特征建模。
  • 提出带有四元数输入、权重和激活的 QRNN 和 QLSTM 架构。
  • 开发四元数特定的学习算法,包括 QBPTT 和四元数感知的参数初始化。
  • 在语音识别基准(TIMIT、WSJ)上展示性能和参数效率提升。
  • 强调在资源受限设备上的潜在好处,因为参数数量减少。

提出的方法

  • 使用哈密顿积将层变换扩展到四元数值计算。
  • 使用分部激活,即把每个四元数分量(实部、i、j、k)分别进行激活。
  • 应用四元数时间反向传播(QBPTT)以计算跨四元数权重的梯度。
  • 引入基于极形式和四元数归一化的四元数特定权重初始化程序。
  • 推导带分量门控(QLSTM)和双向训练设置的四元数 LSTM 方程。

实验结果

研究问题

  • RQ1四元数值 RNN(QRNN)和 QLSTM 是否比实值方法更高效地捕获内部特征与特征之间的相关性?
  • RQ2QRNN 和 QLSTM 在使用显著更少参数的情况下,能达到具有竞争力或更优的音素识别效果吗?
  • RQ3在标准语音基准(如 TIMIT、WSJ)上,QRNN/QLSTM 的表现如何相比 RNN/LSTM?
  • RQ4哪些初始化和训练策略对稳定的四元数值网络最为有效?

主要发现

  • QRNN 与 QLSTM 在 TIMIT 的音素错误率(PER)上优于 RNN/LSTM 基线。
  • TIMIT 测试的最佳 PER:QRNN 18.5% 和 QLSTM 15.1%,对比 RNN 19.0% 与 LSTM 15.3%。
  • QRNN 和 QLSTM 能在使用比实值同类模型少 3.3x 的 trainable 参数时,达到相同或更好的性能。
  • QRNNs 和 QLSTMs 在各架构上表现出显著的参数效率,例如某些配置下有 4-到 16 倍的减少。
  • 在所有模型中,四元数变体在保持竞争的 PER 的同时,只使用了较小比例的参数(例如,256 个神经元的 QRNN:参数 3.8M vs RNN 9.4M;256 个神经元的 QLSTM:14.4M vs LSTM 46.2M)。
  • 表 1 和 表 2 报告了 TIMIT 上多个配置的详细 PER 和参数数量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。