Skip to main content
QUICK REVIEW

[论文解读] Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP

Haonan Yu, Sergey Edunov|arXiv (Cornell University)|Jun 6, 2019
Natural Language Processing Techniques参考文献 32被引用 77
一句话总结

本论文在超监督图像分类之外测试 lottery ticket 假设,显示在 NLP(LSTM 与 Transformer)与 RL(经典控制与 Atari)中存在获胜票据初始化,使较小模型接近全模型性能。

ABSTRACT

The lottery ticket hypothesis proposes that over-parameterization of deep neural networks (DNNs) aids training by increasing the probability of a "lucky" sub-network initialization being present rather than by helping the optimization process (Frankle & Carbin, 2019). Intriguingly, this phenomenon suggests that initialization strategies for DNNs can be improved substantially, but the lottery ticket hypothesis has only previously been tested in the context of supervised learning for natural image tasks. Here, we evaluate whether "winning ticket" initializations exist in two different domains: natural language processing (NLP) and reinforcement learning (RL).For NLP, we examined both recurrent LSTM models and large-scale Transformer models (Vaswani et al., 2017). For RL, we analyzed a number of discrete-action space tasks, including both classic control and pixel control. Consistent with workin supervised image classification, we confirm that winning ticket initializations generally outperform parameter-matched random initializations, even at extreme pruning rates for both NLP and RL. Notably, we are able to find winning ticket initializations for Transformers which enable models one-third the size to achieve nearly equivalent performance. Together, these results suggest that the lottery ticket hypothesis is not restricted to supervised learning of natural images, but rather represents a broader phenomenon in DNNs.

研究动机与目标

  • 评估在超监督图像分类之外,NLP 与 RL 设置中是否存在获胜票据初始化。
  • 评估在 NLP 模型(LSTMs 与 Transformers)中使用迭代 pruning 与后 rewinding 的有效性,以发现 lottery tickets。
  • 评估在 RL 任务(经典控制与 Atari)中 lottery tickets 的存在性和质量。
  • 量化 Transformer 模型在翻译与 LSTM 语言模型中的稀疏性对性能的影响。
  • 演示 lottery tickets 的实际意义,如从稀疏初始化训练即可接近全模型性能。

提出的方法

  • 对 NLP 与 RL 应用单次剪枝和迭代剪枝以发现稀疏的获胜票据。
  • 对 NLP 使用全局幅度剪枝并以迭代剪枝率 p=0.2 进行 20 次迭代,对 RL 进行 20 次剪枝迭代。
  • 通过后 rewinding(RL 在完整网络训练的第一轮 epoch 之后将获胜票据重置回权重,NLP 与常规重置进行比较)来实现延迟重置。
  • 评估 NLP 任务:对 Wikitext-2 的 LSTM 语言建模和基于 Transformer 的 WMT’14 En-De 翻译,报告困惑度与 BLEU。
  • 评估 RL 任务:经典控制的全连接网络与基于 CNN 的策略在 Atari 游戏中的表现,报告平均奖励。

实验结果

研究问题

  • RQ1获胜票据初始化在 NLP 与 RL 中是否超越监督图像分类?
  • RQ2迭代剪枝与后 rewinding 是否提升 NLP 模型(LSTMs 与 Transformers)和 RL 代理的稀疏子网的性能?
  • RQ3在 RL 任务(经典控制与 Atari)中,作为获胜票据初始化的稀疏子网是否能达到与密集网络相当的性能?
  • RQ4剪枝在 Transformer 基于翻译和 LSTM 语言建模的表现中,如何在 lottery ticket 框架下变化?

主要发现

  • 在 NLP 任务中,获胜票据初始化在 LSTMs 与 Transformers 上均优于随机票据,即使在高剪枝率下也如此。
  • 迭代剪枝与后 rewinding 可显著提升 lottery ticket 的性能,其中迭代剪枝对 NLP 与 RL 的影响大于后 rewinding。
  • 带有获胜票据的 Transformer Big 模型仅用三分之一的权重即可达到未剪枝模型 BLEU 分数的 99%。
  • 在 RL 中,获胜票据在经典控制任务与多数 Atari 游戏中优于随机票据,尽管效果因游戏而异。
  • 对 Transformer 层权重进行剪枝与对整个模型剪枝的鲁棒性存在差异,嵌入层显示出不同的敏感性模式。
  • 结果表明 lottery tickets 是跨领域的一种普遍现象,而不仅限于监督图像分类。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。