Skip to main content
QUICK REVIEW

[论文解读] Variable Computation in Recurrent Neural Networks

Yacine Jernite, Édouard Grave|arXiv (Cornell University)|Nov 18, 2016
Neural Networks and Applications被引用 28
一句话总结

本文提出了可变计算循环神经网络(VCRNN)和可变计算门控循环单元(VCGRU),这些模型根据输入和隐藏状态动态调整每一步的时间计算量,从而在语言建模任务中减少计算量并提升性能。模型学会在词边界和结构单元处分配更多计算,与固定计算量的基线模型相比,以更少的运算次数实现了更低的困惑度。

ABSTRACT

Recurrent neural networks (RNNs) have been used extensively and with increasing success to model various types of sequential data. Much of this progress has been achieved through devising recurrent units and architectures with the flexibility to capture complex statistics in the data, such as long range dependency or localized attention phenomena. However, while many sequential data (such as video, speech or language) can have highly variable information flow, most recurrent models still consume input features at a constant rate and perform a constant number of computations per time step, which can be detrimental to both speed and model capacity. In this paper, we explore a modification to existing recurrent units which allows them to learn to vary the amount of computation they perform at each step, without prior knowledge of the sequence's time structure. We show experimentally that not only do our models require fewer operations, they also lead to better performance overall on evaluation tasks.

研究动机与目标

  • 解决恒定计算量循环网络在处理序列数据中可变信息流时的低效问题。
  • 开发一种机制,使RNN能够学习在每个时间步何时以及执行多少计算,而无需事先了解序列结构。
  • 通过根据数据依赖的复杂性自适应调整计算,提升模型性能并降低计算成本。
  • 证明可变计算在字符级和比特级语言建模任务中能带来更好的泛化能力和效率。

提出的方法

  • 通过在标准Elman单元和GRU单元中引入可学习调度器,提出VCRNN和VCGRU,以确定每个时间步的计算步数。
  • 引入一个可微分的调度器网络,基于当前隐藏状态和输入预测每个时间步的计算步数 $ m_t $。
  • 通过使用截断正态分布的可微分松弛方法对离散的 $ m_t $ 选择进行近似,实现端到端训练。
  • 采用一种兼顾模型性能(困惑度)与计算成本的训练目标,使用目标平均计算量 $ \bar{m} $。
  • 对 $ m_t $ 施加惩罚,以鼓励稀疏性与效率,尤其在静音或缓冲区等低信息区域。
  • 通过反向传播通过可微分调度器进行端到端训练,使网络能够学习最优的计算分配策略。

实验结果

研究问题

  • RQ1循环网络能否在不依赖先验结构知识的前提下,根据输入复杂度自适应地调整每个时间步的计算量?
  • RQ2与固定计算量的RNN相比,可变计算是否能带来性能提升并降低计算成本?
  • RQ3模型能否通过自适应计算发现并利用语言结构(如词边界和词形单位)?
  • RQ4调度器的行为在文本或语音等序列数据中是否与语义或句法单元存在相关性?
  • RQ5模型在保持效率与准确性的前提下,能否泛化到不同语言和数据类型(如字符级、比特级)?

主要发现

  • 在PTB数据集上,VCGRU的性能与标准GRU和LSTM模型相当,但计算量不足其一半。
  • 在Text8数据集上,不同 $ \bar{m} $ 值的VCGRU模型在计算成本相似或更高的情况下,持续优于基线模型。
  • VCRNN学会在词边界和词形单位处分配更多计算,德国语和捷克语文本中计算量的峰值清晰显示在这些位置。
  • 模型学会忽略字符之间的8位和24位人工缓冲区,表明其能够识别并跳过冗余或低信息量的片段。
  • 在Europarl捷克语和德语数据集上,有监督和无监督的VCRNN变体在更低的计算负载下,均实现了优于标准RNN的保留对数似然。
  • 调度器学会大约每词使用一次高维表示,且在某些情况下能检测到子词单位(如词素 -verkehr、-freundlich),显示出对语言结构的敏感性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。