Skip to main content
QUICK REVIEW

[论文解读] Learning to Optimize Neural Nets

Ke Li, Jitendra Malik|arXiv (Cornell University)|Mar 1, 2017
Machine Learning and Algorithms参考文献 29被引用 84
一句话总结

本文通过引导策略搜索扩展一个框架,以学习高维、随机的优化器,并演示了一个学习到的优化器在手工设计的算法之上表现更好且能在不同数据集和体系结构上泛化。

ABSTRACT

Learning to Optimize is a recently proposed framework for learning optimization algorithms using reinforcement learning. In this paper, we explore learning an optimization algorithm for training shallow neural nets. Such high-dimensional stochastic optimization problems present interesting challenges for existing reinforcement learning algorithms. We develop an extension that is suited to learning optimization algorithms in this setting and demonstrate that the learned optimization algorithm consistently outperforms other known optimization algorithms even on unseen tasks and is robust to changes in stochasticity of gradients and the neural net architecture. More specifically, we show that an optimization algorithm trained with the proposed method on the problem of training a neural net on MNIST generalizes to the problems of training neural nets on the Toronto Faces Dataset, CIFAR-10 and CIFAR-100.

研究动机与目标

  • 将学习优化算法作为神经网络训练的数据驱动工具进行动机化,而非手工设计的规则。
  • 开发适用于高维随机问题的 Learning to Optimize 的扩展。
  • 证明学习到的优化器能够对未见的体系结构和数据集进行泛化,同时对梯度随机性保持鲁棒。

提出的方法

  • 将优化问题表述为一个强化学习问题,其中更新规则是策略。
  • 使用引导策略搜索(GPS)来学习一个随时间变化的线性策略以及由 RNN 表示的非线性定态策略。结合动力学的局部线性化和代价的二次近似,以使用 LQG 调节器求解子问题。
  • 施加置换不变性(坐标组)以利用神经网络结构并在高维场景中实现可扩展学习。
  • 定义状态特征,聚焦迭代、梯度和目标的历史;定义训练和测试用的观测特征。
  • 应用卷积式 GPS(块对角、逐坐标分解)以将学习扩展到神经网络优化。

实验结果

研究问题

  • RQ1在浅层神经网络上训练的学习优化算法是否可以推广到更深的架构和不同的数据集?
  • RQ2学习到的优化器是否对梯度随机性和网络架构的变化具有鲁棒性?
  • RQ3在未见任务上,学习到的优化器是否胜过流行的手工设计优化器(如 SGD、动量、Adagrad、RMSProp、Adam)?
  • RQ4结构先验(按坐标分组)的引入在多大程度上能提高高维优化的学习效率?
  • RQ5学习到的优化器在具有非常不同统计特征的数据集之间的迁移性有多好(MNIST vs. CIFAR/TFD)?

主要发现

  • 学习到的优化器在 MNIST 派生、TFD、CIFAR-10 和 CIFAR-100 任务中始终比手工设计方法更快收敛到最优解。
  • 预测的步骤下降能够泛化到具有更大输入和隐藏层的神经网络(参数量约增加8倍),尽管初始存在振荡,仍保持竞争力或优于其他方法。
  • 在减少批量大小(梯度随机性增大)下,学习到的优化器仍然鲁棒,并在若干数据集上仍然优于替代方法。
  • 在 MNIST 上进行元训练的优化器在不相似的数据集上也能表现更好,表明学习到的优化策略具有迁移性。
  • 与基于 L2L 的学习优化器相比,所提方法在未见任务和体系结构上表现出更高的一致性和稳定性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。