[论文解读] Learning to learn by gradient descent by gradient descent
本论文训练一个神经优化器(基于LSTM的更新器),以学习针对多样化目标的更新规则,并展示其在手设计优化器之上的优势,以及对任务和体系结构的泛化。
The move from hand-designed features to learned features in machine learning has been wildly successful. In spite of this, optimization algorithms are still designed by hand. In this paper we show how the design of an optimization algorithm can be cast as a learning problem, allowing the algorithm to learn to exploit structure in the problems of interest in an automatic way. Our learned algorithms, implemented by LSTMs, outperform generic, hand-designed competitors on the tasks for which they are trained, and also generalize well to new tasks with similar structure. We demonstrate this on a number of tasks, including simple convex problems, training neural networks, and styling images with neural art.
研究动机与目标
- 用一个可学习的优化器替换手工设计的优化规则,以利用问题结构。
- 将优化器设计建模为一个在任务分布上训练的元学习问题。
- 实现对新体系结构、激活函数及相关问题的迁移,而无需从头重新训练。
- 通过一个坐标式的 LSTM 优化器实现可扩展性,适用于大规模参数数量。
提出的方法
- 将更新器 g 参数化为一个循环神经网络(LSTM),在优化变量上逐坐标地工作。
- 在坐标之间共享优化器参数,以保持模型紧凑并对参数排序不变。
- 通过最小化一个对优化轨迹求和的带权损失的目标来训练优化器,并对 φ 进行时序反向传播。
- 使用截断的 BPTT 和通过优化图的梯度流,伴随一个放宽的轨迹目标,以使在部分轨迹上也能训练。
- 应用预处理和后处理来稳定优化器的输入输出,包括一种特定的梯度预处理方案。
- 在多任务中将学习到的优化器与标准基线(SGD、RMSprop、Adam、NAG)进行比较,涵盖二次函数、MNIST、CIFAR-10 和 Neural Art。
实验结果
研究问题
- RQ1从一族问题中学习的神经优化器是否能在这些问题上显著优于传统的手工设计优化器?
- RQ2在同一问题类别内,学习到的优化器在不同模型体系结构和激活函数方面的泛化能力到何种程度?
- RQ3坐标式 LSTM 更新器是否可扩展到大规模神经网络并在相关任务之间实现迁移?
- RQ4学习到的优化器在超出其训练分布的任务上迁移能力如何(例如 Neural Art 中不同数据、风格或分辨率)?
主要发现
- 学习到的 LSTM 优化器在包含二次函数和训练神经网络等一系列任务上显著优于标准基线。
- 在 MNIST 与 CIFAR-10 任务中,针对一个架构/通用设置训练的 LSTM 优化器能够泛化到其他架构和激活函数。
- 在 CIFAR-10 上,学习到的优化器在保留数据分布之外的条件下以及在某些标签被移除或数据集被修改时仍然优于手工优化器。
- 在 Neural Art 风格迁移中,LSTM 优化器优于传统优化器并能够泛化到训练条件之外的新风格和更高分辨率。
- 带共享权重但分离隐藏状态的坐标式 LSTM 有利于扩展到大量参数,同时保持迁移能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。