Skip to main content
QUICK REVIEW

[论文解读] A Simple Neural Attentive Meta-Learner

Nikhil Mishra, Mostafa Rohaninejad|arXiv (Cornell University)|Jul 11, 2017
Neural Networks and Applications被引用 758
一句话总结

SNAIL 是一个通用元学习器,结合时序卷积与因果注意力,在有监督和强化学习元学习任务中无需任务特定先验即可达到最先进性能。

ABSTRACT

Deep neural networks excel in regimes with large amounts of data, but tend to struggle when data is scarce or when they need to adapt quickly to changes in the task. In response, recent work in meta-learning proposes training a meta-learner on a distribution of similar tasks, in the hopes of generalization to novel but related tasks by learning a high-level strategy that captures the essence of the problem it is asked to solve. However, many recent meta-learning approaches are extensively hand-designed, either using architectures specialized to a particular application, or hard-coding algorithmic components that constrain how the meta-learner solves the task. We propose a class of simple and generic meta-learner architectures that use a novel combination of temporal convolutions and soft attention; the former to aggregate information from past experience and the latter to pinpoint specific pieces of information. In the most extensive set of meta-learning experiments to date, we evaluate the resulting Simple Neural AttentIve Learner (or SNAIL) on several heavily-benchmarked tasks. On all tasks, in both supervised and reinforcement learning, SNAIL attains state-of-the-art performance by significant margins.

研究动机与目标

  • 激励一种通用、灵活的元学习架构,能够在相关任务的分布中迅速适应。
  • 消除对手工设计的架构或针对特定领域定制的先验的依赖。
  • 通过将时序卷积与注意力结合,开发一个简单而富有表达力的模型。
  • 在监督的少样本学习基准和强化学习任务中展示出强劲的性能。

提出的方法

  • 提出 SNAIL,它将时序卷积块与因果注意力块交错,形成一个序列处理元学习器。
  • 使用扩张因果一维卷积(DenseBlocks/TCBlocks)来构建高效的时间上下文表示。
  • 引入因果注意力机制,能从过去的表示中选择性读取,而不窥视未来步骤。
  • 在有监督设置中,将输入处理为标注示例序列,随后跟随一个未标记查询;在强化学习中,为观察-行动-奖励元组,跨界保持剧集记忆。
  • 在任务分布上端到端训练,使用 Adam(在 RL 中使用 TRPO/GAE)以最小化跨任务的期望元损失。
  • 强调相对于基于 LSTM 的元学习器和像 MAML 这样的梯度基元学习器的架构鲁棒性和训练效率。

实验结果

研究问题

  • RQ1一个通用的元学习器能否在多样化任务中超越领域专用或基于先验的方法?
  • RQ2将时序卷积与因果注意力结合是否能够实现可扩展的长时记忆以实现快速适应?
  • RQ3SNAIL 在少样本监督学习基准(Omniglot、mini-ImageNet)以及强化学习元任务(带Bandits、MDP、导航、连续控制)中的表现如何?
  • RQ4与如 LSTM 的递归架构或记忆增强网络相比,SNAIL 是否更易训练且更节省内存?

主要发现

  • SNAIL 在监督少样本学习基准和多项强化学习元任务上达到最先进或有竞争力的结果。
  • 在少样本分类中,SNAIL 在 Omniglot 和 mini-ImageNet 上显著优于先前的通用或领域特定方法。
  • 在 RL 领域,SNAIL 常常与基于 LSTM 的元学习器和 MAML 基线持平或超过,尤其是在具有较长时间依赖和结构化任务分布的任务上。
  • SNAIL 的架构支持跨剧集界限的记忆,并能扩展到更长的序列,而无需固定的短上下文窗口。
  • 消融研究显示对架构选择具有鲁棒性,TC 与注意力的简单组合在不进行大量人工设计的情况下也能提供强健的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。