[论文解读] Recurrent Batch Normalization
本文提出循环批量归一化(RBN),一种LSTM的重参数化方法,通过在隐藏状态到隐藏状态的转移中应用批量归一化,减少时间步之间的内部协变量偏移。实验结果表明,该方法在序列建模任务(包括语言建模和问答任务)中实现了更快的收敛速度和更好的泛化性能,优于标准LSTM以及先前在RNN中应用批量归一化的方案。
We propose a reparameterization of LSTM that brings the benefits of batch normalization to recurrent neural networks. Whereas previous works only apply batch normalization to the input-to-hidden transformation of RNNs, we demonstrate that it is both possible and beneficial to batch-normalize the hidden-to-hidden transition, thereby reducing internal covariate shift between time steps. We evaluate our proposal on various sequential problems such as sequence classification, language modeling and question answering. Our empirical results show that our batch-normalized LSTM consistently leads to faster convergence and improved generalization.
研究动机与目标
- 通过将批量归一化从输入到隐藏层扩展到隐藏到隐藏的转移,解决循环神经网络中的内部协变量偏移问题。
- 克服以往在RNN中应用批量归一化失败的问题,这些失败被归因于梯度爆炸和初始化不当。
- 证明在隐藏状态转移中应用批量归一化可改善序列学习任务的优化与泛化性能。
- 在多种任务上验证该方法,包括序列分类、语言建模和问答任务,涵盖可变长度序列和注意力机制。
- 为在双向和注意力增强的RNN中应用批量归一化提供一个稳健的框架。
提出的方法
- 通过在隐藏到隐藏的转移中引入批量归一化层,对LSTM进行重参数化,使每个时间步在批量上对隐藏状态进行标准化。
- 对隐藏状态与输入的组合变换应用批量归一化,在激活函数前对线性变换的输出进行归一化。
- 在批量归一化层中使用可学习的仿射参数(缩放和偏移),以在归一化后保持表示能力。
- 对输入采用逐序列归一化,以避免可变长度序列中零填充带来的偏差,仅对输入项共享时间维度上的统计量。
- 在注意力阅读器模型中对注意力机制应用批量归一化,在tanh非线性变换前对相关项进行归一化。
- 通过谨慎初始化批量归一化参数,防止梯度消失并确保训练稳定。
实验结果
研究问题
- RQ1能否有效将批量归一化应用于LSTM的隐藏到隐藏转移,以减少内部协变量偏移?
- RQ2为何早期尝试在RNN中应用批量归一化失败?适当的初始化是否能解决这些问题?
- RQ3循环批量归一化是否能提升序列建模任务中的训练速度与泛化性能?
- RQ4能否成功将批量归一化扩展到包含注意力机制和双向RNN的复杂架构中?
- RQ5在存在可变长度序列和零填充的情况下,批量归一化如何影响优化过程?
主要发现
- 与标准LSTM相比,循环批量归一化(BN-LSTM)在序列分类和语言建模任务中显著加快了训练收敛速度。
- 在CNN问答任务中,BN-e**(双向BN-e*)达到36.3%的测试错误率,优于基线LSTM(45.0%)和原始注意力阅读器(37.0%)。
- BN-everywhere变体(对注意力项进行归一化)达到49.5%的验证错误率,显示出相对于基线LSTM的泛化优势。
- BN-e*和BN-e**分别达到47.1%和43.9%的最低误差,证明通过优化能力的提升实现了更好的泛化性能。
- 发现批量归一化参数的正确初始化至关重要,不当初始化会导致梯度消失和训练失败,这与早期假设相反。
- 该方法通过采用逐序列归一化并保留反向传播中的填充结构,成功处理了可变长度序列和双向RNN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。