QUICK REVIEW

[论文解读] Learning Gradient Descent: Better Generalization and Longer Horizons

Kaifeng Lv, Shunhua Jiang|arXiv (Cornell University)|Mar 10, 2017

Machine Learning and Algorithms参考文献 21被引用 39

一句话总结

该论文提出 RNNprop，一种基于循环神经网络的可学习优化器，通过引入两项关键训练技巧——随机缩放（Random Scaling）和将损失与凸函数结合——在性能上超越了传统及最先进的一阶元学习优化器。该优化器在简单MLP上进行训练，可泛化至更深的网络、更长的训练时长（最多数千步），以及包括CNN和LSTM在内的多样化架构，其性能与Adam和Adagrad相当或更优。

ABSTRACT

Training deep neural networks is a highly nontrivial task, involving carefully selecting appropriate training algorithms, scheduling step sizes and tuning other hyperparameters. Trying different combinations can be quite labor-intensive and time consuming. Recently, researchers have tried to use deep learning algorithms to exploit the landscape of the loss function of the training problem of interest, and learn how to optimize over it in an automatic way. In this paper, we propose a new learning-to-learn model and some useful and practical tricks. Our optimizer outperforms generic, hand-crafted optimization algorithms and state-of-the-art learning-to-learn optimizers by DeepMind in many tasks. We demonstrate the effectiveness of our algorithms on a number of tasks, including deep MLPs, CNNs, and simple LSTMs.

研究动机与目标

解决训练深度神经网络时手动调整超参数与算法选择的挑战。
提升元学习优化器在不同架构与激活函数下的泛化能力。
将学习到的优化器的有效训练时长扩展至超过100步，实现数千步的稳定优化。
开发实用的训练技术，以增强基于RNN的优化器的鲁棒性与适应性。
证明单一学习到的优化器可在无需重新训练的情况下，有效训练包括MLP、CNN和LSTM在内的多样化模型。

提出的方法

该优化器被实现为一个RNN（具体为基于LSTM的模型），其输入为被优化模型的梯度，输出为参数更新。
使用元学习目标进行模型训练：在带有Sigmoid激活函数的基础MLP上，最小化100步训练过程的最终损失。
在训练过程中应用随机缩放：对被优化模型的参数进行随机缩放，以提升其在未见架构与激活函数下的泛化能力。
在RNN训练过程中，向损失函数添加一个凸正则化项，以加速收敛并稳定优化过程。
最终优化器RNNprop在一系列任务上进行评估，包括更深的MLP、CNN和LSTM，涵盖不同架构与数据集。
该方法在多个基准测试与超参数设置下，与DMoptimizer、Adam、Adagrad及其他基线方法进行对比。

实验结果

研究问题

RQ1在仅基于简单MLP训练后，学习到的优化器是否能泛化至具有不同激活函数（如ReLU）的更深或更宽的MLP？
RQ2当仅在100步任务上进行训练时，元学习优化器是否能在显著更长的训练时长（如数千步）上保持性能？
RQ3所提出的两项训练技巧——随机缩放与凸损失结合——在提升基于RNN的优化器泛化能力与训练稳定性方面有多有效？
RQ4学习到的优化器RNNprop是否在多样化架构与数据集上实现了与手工设计优化器（如Adam和Adagrad）相当或更优的性能？
RQ5被优化模型的结构（如CNN、LSTM）在多大程度上影响元学习优化器的泛化能力？

主要发现

RNNprop在1000步训练中成功优化了ReLU激活的MLP，最终损失为0.30，优于DMoptimizer（26.43），并达到或超过Adam与Adagrad的性能。
在带有小噪声（N(0,0.01)）的2层LSTM上，RNNprop的最终损失为0.36，优于Adam（0.39）与Adagrad（0.50）。
在100步MLP上进行训练后，RNNprop成功泛化至在MNIST上训练4层CNN超过1000步，性能与Adam相当。
随机缩放技巧最为有效：移除该技巧后，ReLU激活MLP的性能显著下降；而凸损失结合则有助于加速训练。
在基础MLP的15,000次迭代训练中，RNNprop的最终损失为0.30，而未使用凸组合的版本损失为0.33，证实了正则化技巧的有效性。
在2层LSTM上，RNNprop的损失为0.28，显著优于DMoptimizer（5.06）与Adam（0.44）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。