[论文解读] Zoneout: Regularizing RNNs by Randomly Preserving Hidden Activations
Zoneout 通过随机保留隐藏激活来正则化 RNNs,随时间创建恒等连接,以改善梯度流和泛化;在语言模型和置换序列 MNIST 上达到具有竞争力或最先进的结果。
We propose zoneout, a novel method for regularizing RNNs. At each timestep, zoneout stochastically forces some hidden units to maintain their previous values. Like dropout, zoneout uses random noise to train a pseudo-ensemble, improving generalization. But by preserving instead of dropping hidden units, gradient information and state information are more readily propagated through time, as in feedforward stochastic depth networks. We perform an empirical investigation of various RNN regularizers, and find that zoneout gives significant performance improvements across tasks. We achieve competitive results with relatively simple models in character- and word-level language modelling on the Penn Treebank and Text8 datasets, and combining with recurrent batch normalization yields state-of-the-art results on permuted sequential MNIST.
研究动机与目标
- 为循环网络提供鲁棒正则化的动机,以在不损害时间信息流的情况下改善泛化。
- 将 Zoneout 作为对隐藏状态和单元的随机恒等保持引入。
- 在多个 RNN 任务中,实证比较 Zoneout 与 Dropout 及其他正则化方法。
- 在 Penn Treebank、Text8 和置换 MNIST 上展示具有竞争力的性能,包括与循环批量归一化的组合。
提出的方法
- 将 zoneout 定义为循环转移与恒等映射的随机混合,由逐单元伯努利掩码控制。
- 以类似于 dropout 的噪声注入进行训练,但保留过去的激活而不是将其置零。
- 在 LSTM 中对单元和隐藏状态应用各自的 zoneout 掩码;可选地跨门共享掩码,或对相关组件复用输入 dropout 掩码。
- 在测试时使用噪声的期望来维持稳定的前向/后向流。
- 将 zoneout 与循环 dropout、权重噪声、规范化稳定化器和 RNN 的随机深度进行比较。
- 在字符级和词级语言建模以及置换序列 MNIST 上进行评估,包括对掩码概率的消融研究。
实验结果
研究问题
- RQ1与标准 dropout 和其他正则化方法相比,Zoneout 是否能改善 RNN 的泛化能力?
- RQ2Zoneout 的配置应如何(单元 vs 隐藏状态的概率)以在各任务中最大化性能?
- RQ3Zoneout 是否能改善向前传递到更早时间步的梯度流,从而减轻梯度消失/爆炸问题?
- RQ4当与其他正则化方法如循环批量归一化结合时,Zoneout 能否达到最先进的结果?
- RQ5Zoneout 是否广泛适用于简单 RNN、LSTM 和 GRU?
主要发现
| Char-PTB(验证) | Char-PTB(测试) | Word-PTB(验证) | Word-PTB(测试) | Text8(验证) | Text8(测试) |
|---|---|---|---|---|---|
| 1.466 | 1.356 | 120.7 | 114.5 | 1.396 | 1.408 |
| 1.507 | 1.344 | – | – | 1.356 | 1.367 |
| 1.459 | 1.352 | – | – | 1.382 | 1.398 |
| 1.432 | 1.343 | – | – | – | – |
| 1.362 | 1.252 | 0 81.4 | 0 77.4 | 1.331 | 1.336 |
| – | – | 0 82.2 | 0 78.4 | – | – |
- Zoneout 相对于若干基线,在字符级和词级语言建模以及 pMNIST 上提升了泛化能力。
- 在字符级 PTB 上,zoneout 设为 zc=0.5 和 zh=0.05,达到 1.27 BPC,与最先进方法具有竞争力。
- 在词级 PTB 上,带有循环连接的 zoneout 将测试困惑度从 78.4 提升到 77.4,在一个强基线中;将 zoneout 与前馈 dropout 结合可提升结果。
- 在 Text8 上,zoneout 与未正则化的 LSTM 及其他正则化方法相比,训练/验证曲线具有竞争力。
- 在 pMNIST 上,zoneout 超过循环 dropout,并在与循环批量归一化(RBN)结合时达到最先进水平。
- 梯度流分析表明,zoneout 比 dropout 更有效地向更早的时间步保留梯度信息,支持其正则化效益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。