[论文解读] Learned Optimizers that Scale and Generalize
本文提出一个基于分层RNN的学习优化器,能够泛化到新任务并扩展到更大规模的问题,在与ADAM/RMSProp的竞争性能上具有竞争力,并能够在初期阶段进行ImageNet规模的训练。
Learning to learn has emerged as an important direction for achieving artificial intelligence. Two of the primary barriers to its adoption are an inability to scale to larger problems and a limited ability to generalize to new tasks. We introduce a learned gradient descent optimizer that generalizes well to new tasks, and which has significantly reduced memory and computation overhead. We achieve this by introducing a novel hierarchical RNN architecture, with minimal per-parameter overhead, augmented with additional architectural features that mirror the known structure of optimization tasks. We also develop a meta-training ensemble of small, diverse optimization tasks capturing common properties of loss landscapes. The optimizer learns to outperform RMSProp/ADAM on problems in this corpus. More importantly, it performs comparably or better when applied to small convolutional neural networks, despite seeing no neural networks in its meta-training set. Finally, it generalizes to train Inception V3 and ResNet V2 architectures on the ImageNet dataset for thousands of steps, optimization problems that are of a vastly different scale than those it was trained on. We release an open source implementation of the meta-training algorithm.
研究动机与目标
- 证明一个学习到的梯度下降优化器能够泛化到未见过的任务和网络结构。
- 降低内存和计算开销以实现对更大问题的扩展。
- 将优化启发特征(注意力、多尺度动量、动态输入缩放)融入可学习的更新规则。
- 开发一个多样化的元训练集合,捕捉常见损失景观的特性。
- 证明该优化器能够在早期训练阶段训练更大规模的模型(ImageNet规模)。
提出的方法
- 引入一个分层RNN优化器,包含逐参数的参数RNN、张量级别的张量RNN,以及全局的全局RNN。
- 融合优化启发特征:基于注意力的外推、多尺度动量、动态输入缩放和分解的更新长度。
- 使用基于梯度的输入,包括缩放后的梯度、动量指标以及相对学习率信号,作为RNN输入。
- 通过学习到的仿Affine读出,输出逐参数和逐张量的更新,以及对学习率对数的调整。
- 在一个经过筛选的小型、多样化优化任务集合上进行元训练,并采用训练步数的重尾分布。
- 使用基于平均对数损失的元目标,鼓励精确收敛和学习率自适应。
实验结果
研究问题
- RQ1学习到的优化器是否能够泛化到在元训练中未见过的神经网络架构和问题类别?
- RQ2如何降低内存和计算开销,以实现对更大优化问题的扩展?
- RQ3基于优化信息的体系结构特征是否有助于学习优化器在跨任务上的泛化?
- RQ4在多样化的小型任务集合上进行元训练,是否会在更大网络和数据集(如ImageNet)上得到鲁棒的表现?
主要发现
- 该分层RNN优化器在元训练集中的问题上达到与RMSProp/ADAM相当的性能。
- 它能够泛化到在元训练中未见过的小型卷积网络和全连接网络,表现相当甚至更好。
- 在ImageNet的早期阶段,它可以稳定Inception V3和ResNet V2的训练,尽管训练后期进展可能放缓。
- 当保持参数RNN较小时,内存和计算开销呈较优的扩展性,支持更大规模的用例。
- 性能对初始学习率的选择具有鲁棒性,消融研究显示关键特征(注意力、多尺度动量、缩放、相对学习率)的重要性。
- 随着小批量大小的增大,学习优化器的实际耗时接近标准优化器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。