Skip to main content
QUICK REVIEW

[论文解读] Recurrent Additive Networks

Kenton Lee, Omer Levy|arXiv (Cornell University)|May 21, 2017
Topic Modeling参考文献 13被引用 30
一句话总结

本文提出循环加法网络(RANs),一种仅使用加法状态更新、在循环转移中不引入非线性激活的门控RNN,其在语言建模基准测试中的性能与LSTM相当。该模型的内部状态是输入向量的加权和,因此具有高度可解释性,同时保持了强大的性能。

ABSTRACT

We introduce recurrent additive networks (RANs), a new gated RNN which is distinguished by the use of purely additive latent state updates. At every time step, the new state is computed as a gated component-wise sum of the input and the previous state, without any of the non-linearities commonly used in RNN transition dynamics. We formally show that RAN states are weighted sums of the input vectors, and that the gates only contribute to computing the weights of these sums. Despite this relatively simple functional form, experiments demonstrate that RANs perform on par with LSTMs on benchmark language modeling problems. This result shows that many of the non-linear computations in LSTMs and related networks are not essential, at least for the problems we consider, and suggests that the gates are doing more of the computational work than previously understood.

研究动机与目标

  • 开发一种更简单、更具可解释性的门控RNN架构,同时在序列建模任务中保持强大性能。
  • 探究LSTM在语言建模中取得成功是否依赖于非线性循环动态。
  • 形式化表征RAN的函数空间,并证明其隐藏状态是输入向量的逐分量加权和。
  • 证明RNN中的门控机制可能承担了比以往认为更多的计算工作,而不仅仅是控制信息流动。

提出的方法

  • RANs通过使用Sigmoid门控机制,将当前输入与前一隐藏状态进行逐分量加权求和,以计算隐藏状态,其中输入门和遗忘门分别控制输入与状态的保留。
  • 模型通过线性变换将输入投影到隐藏维度,从而处理输入与隐藏维度不匹配的问题。
  • 输出通过在隐藏状态上应用非线性激活函数(如tanh)计算,尽管简化变体中也使用恒等函数。
  • 形式化证明:在时间步t的隐藏状态是所有先前输入向量的加权和,权重由门控值决定。
  • 该架构通过从LSTM中移除非线性循环转移(即候选单元状态中的tanh)以及输出门而推导而来。
  • 实验在标准语言建模基准上,使用标准超参数调优,对比RANs与LSTMs及GRUs的性能。

实验结果

研究问题

  • RQ1是否能够设计一种仅使用加法状态更新的门控RNN,在语言建模任务中达到与LSTM相当的性能?
  • RQ2非线性循环动态在LSTM性能中起到了多大程度的贡献?
  • RQ3门控RNN的隐藏状态能否被形式化表征为输入向量的加权和?这对可解释性有何影响?
  • RQ4LSTM与GRU中的门控机制是否承担了比以往认为更多的计算工作,尤其是在缺乏非线性循环动态的情况下?
  • RQ5是否能够显著简化门控RNN——通过移除非线性激活并减少参数——而不会牺牲性能?

主要发现

  • 尽管参数量显著更少,RANs在三个标准语言建模基准(Penn Treebank、WikiText-2、WikiText-103)上的性能与LSTM相当。
  • 从LSTM架构中移除非线性循环转移(即候选单元状态中的tanh)后,模型性能几乎与原始LSTM完全一致。
  • 移除LSTM的输出门也仅导致性能轻微下降,表明在该设置下输出门并非语言建模任务中不可或缺的组件。
  • RAN在任意时间步的内部状态在数学上等价于所有先前输入向量的逐分量加权和,权重由门控值决定。
  • RAN的简洁性使得能够直接解释每个输入向量对当前隐藏状态的贡献,从而显著提升模型的可解释性。
  • 实证结果表明,加法连接与门控机制可能是LSTM性能的主要驱动因素,而非非线性循环动态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。