Skip to main content
QUICK REVIEW

[论文解读] Meta-Learning and Universality: Deep Representations and Gradient Descent can Approximate any Learning Algorithm

Chelsea Finn, Sergey Levine|arXiv (Cornell University)|Oct 31, 2017
Domain Adaptation and Few-Shot Learning参考文献 17被引用 96
一句话总结

该论文证明,使用标准梯度下降更新的深度表示(如同在 MAML 中)可以普遍近似任何学习算法,并在实验中显示梯度基础的元学习通常比循环元学习在泛化方面表现更好.

ABSTRACT

Learning to learn is a powerful paradigm for enabling models to learn from data more effectively and efficiently. A popular approach to meta-learning is to train a recurrent model to read in a training dataset as input and output the parameters of a learned model, or output predictions for new test inputs. Alternatively, a more recent approach to meta-learning aims to acquire deep representations that can be effectively fine-tuned, via standard gradient descent, to new tasks. In this paper, we consider the meta-learning problem from the perspective of universality, formalizing the notion of learning algorithm approximation and comparing the expressive power of the aforementioned recurrent models to the more recent approaches that embed gradient descent into the meta-learner. In particular, we seek to answer the following question: does deep representation combined with standard gradient descent have sufficient capacity to approximate any learning algorithm? We find that this is indeed true, and further find, in our experiments, that gradient-based meta-learning consistently leads to learning strategies that generalize more widely compared to those represented by recurrent models.

研究动机与目标

  • 在元学习中通过普遍性形式化对学习算法的近似。
  • 比较基于梯度的元学习(MAML)与循环元学习者在表征能力上的差异。
  • 证明通过一次梯度更新就能更新的深度、具表达能力的模型可以近似任意单样本学习者。
  • 将普遍性扩展到 K-shot 设置并分析对基于梯度的元学习的启示。

提出的方法

  • 分析元学习中的通用函数逼近,并定义通用学习过程近似器。
  • 构建一种神经网络架构,解耦前向和反向信息流以实现单步普遍性。
  • 证明在足够深度和偏置变换下,基于梯度的学习者可以近似 (数据集, 测试输入) 的任意函数。
  • 将该构造扩展到 K-shot 设置,显示置换不变的普遍性。
  • 概述损失函数的要求,确保梯度信息能够恢复标签(如均方误差和交叉熵等情况)。
  • 总结在少样本任务上比较基于梯度的元学习者与循环元学习者的经验性实验。

实验结果

研究问题

  • RQ1在单样本设定中,具备深度表征的基于梯度的元学习者是否可以近似任意学习算法?
  • RQ2在 K-shot 设置中,MAML 是否具有与循环元学习者同等的普遍表征能力?
  • RQ3相比循环元学习者,基于梯度的元学习者在极小数据集上是否具有更好的泛化并抵抗过拟合?
  • RQ4哪些损失函数能够保留实现普遍性所需的标签信息?

主要发现

  • 一个足够深的基于梯度的元学习器在单样本设定下可以近似 (x, y, x*) 的任意函数。
  • 在 K-shot 设置中,MAML 可以近似数据集和测试输入的任意置换不变函数。
  • 基于梯度的元学习在测试阶段使用更多梯度步数时,相较于传统初始化更具抗过拟合性。
  • MAML 初始化更好地支持超出元训练任务分布的外推性,相较于仅摄取数据集的元学习者。
  • 诸如均方误差和softmax交叉熵等标准损失满足实现普遍性所需的标签线性性质;某些其他损失则不满足。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。