Skip to main content
QUICK REVIEW

[论文解读] Stochastic Hyperparameter Optimization through Hypernetworks

Jonathan Lorraine, David Duvenaud|arXiv (Cornell University)|Feb 26, 2018
Machine Learning and Data Classification参考文献 17被引用 87
一句话总结

本论文提出训练一个超网络,将超参数映射到近似最优权重,从而实现权重和超参数的联合随机优化,并避免对每组超参数从头重新训练。

ABSTRACT

Machine learning models are often tuned by nesting optimization of model weights inside the optimization of hyperparameters. We give a method to collapse this nested optimization into joint stochastic optimization of weights and hyperparameters. Our process trains a neural network to output approximately optimal weights as a function of hyperparameters. We show that our technique converges to locally optimal weights and hyperparameters for sufficiently large hypernetworks. We compare this method to standard hyperparameter optimization strategies and demonstrate its effectiveness for tuning thousands of hyperparameters.

研究动机与目标

  • 将超参数调优动机化为一个嵌套优化问题,并将其简化为权重和超参数的可微、联立优化。
  • 引入一个超网络,在给定超参数时输出近似最优权重以实现高效的超参数优化。
  • 展示联合训练权重和超参数在大规模超参数空间中的收敛性和实际可行性。
  • 将基于超网络的优化与标准超参数策略进行比较,并在成千上万个超参数上展示有效性。

提出的方法

  • 训练一个神经网络(超网络),接受超参数作为输入并输出近似最优权重 wφ(λ)。
  • 通过链式法则使用训练损失更新超网络参数 φ:∂LTrain(wφ)/∂wφ · ∂wφ/∂φ。
  • 可选地,通过超网络对验证损失求导来优化超参数 λ:∂LValid(wφ(λ))/∂wφ(λ) · ∂wφ(λ)/∂λ。
  • 提出联合优化(算法3),其中 φ 和 λ 同步使用随机梯度更新。
  • 讨论可扩展的变体,采用线性超网络和局部最佳响应近似(算法4)。
  • 与贝叶斯优化和展开优化进行比较,强调在扩展到数千个超参数时的优势。

实验结果

研究问题

  • RQ1一个超网络是否能学习将超参数映射到最优权重的连续最佳响应 w*(λ)?
  • RQ2在温和假设下,权重与超参数的联合优化是否会收敛到局部最优解?
  • RQ3通过超网络进行的梯度优化在高维超参数空间中是否比传统超参数方法更具可扩展性?
  • RQ4在效率和性能方面,超训练与展开优化和贝叶斯优化相比如何?
  • RQ5实现可扩展到数千个超参数的实用策略(如线性超网络、局部分布 p(λ|λ̂))是什么?

主要发现

  • 超网络可以逼近最佳响应函数,在小问题中实现的验证性能接近真实最优解。
  • 使用局部训练、简单超网络的联合优化(算法3)在大规模超参数设置中比展开优化收敛更快。
  • 数千个超参数的超训练在收敛速度和可扩展性上优于标准梯度自由方法。
  • 在深度网络的超训练下,随着层数增加仍能保持或提高验证性能。
  • 线性或因式分解的超网络对于局部最佳响应足以,降低参数负担,同时实现梯度基的超参数更新。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。