QUICK REVIEW

[论文解读] Forward and Reverse Gradient-Based Hyperparameter Optimization

Luca Franceschi, Michele Donini|arXiv (Cornell University)|Mar 6, 2017

Stochastic Gradient Optimization Techniques参考文献 24被引用 56

一句话总结

本文提出两种基于梯度的超参数优化方法，用于迭代学习算法：一种是反向模式（RMD），一种是前向模式（FMD）方法，并且有一种用于高效在线超参数更新的实时前向模式变体。

ABSTRACT

We study two procedures (reverse-mode and forward-mode) for computing the gradient of the validation error with respect to the hyperparameters of any iterative learning algorithm such as stochastic gradient descent. These procedures mirror two methods of computing gradients for recurrent neural networks and have different trade-offs in terms of running time and space requirements. Our formulation of the reverse-mode procedure is linked to previous work by Maclaurin et al. [2015] but does not require reversible dynamics. The forward-mode procedure is suitable for real-time hyperparameter updates, which may significantly speed up hyperparameter optimization on large datasets. We present experiments on data cleaning and on learning task interactions. We also present one large-scale experiment where the use of previous gradient-based methods would be prohibitive.

研究动机与目标

以梯度为基础的超参数优化作为网格/随机/贝叶斯方法的替代方案的动机。
推导并比较迭代训练动态中的反向模式和前向模式超梯度的计算。
引入一种用于在线超参数更新的实时前向模式超梯度方法。
分析时间/空间复杂度，并在大规模实验中展示可扩展性。
展示受限的超参数优化场景（数据清洗和多任务学习），以突出实际收益。

提出的方法

将训练表述为一个动力系统 s_t = Phi_t(s_{t-1}, lambda)，其中超参数为 lambda。
通过带有乘子 α_t 的拉格朗日量推导反向模式超梯度，并展示其与时序反向传播的关系。
通过总导数 ds_T/dlambda 推导前向模式超梯度，得到递推关系 Z_t = A_t Z_{t-1} + B_t。
提供一种实时前向模式变体（RTRL 类似），在每个时间步计算部分超梯度以进行潜在的在线更新。
讨论计算复杂度：前向模式的时间复杂度为 O(T m g(d,m))，空间复杂度为 O(h(d,m))；反向模式的时间复杂度为 O(T g(d,m))，空间复杂度为 O(s(d,m))。

实验结果

研究问题

RQ1如何高效地计算迭代学习算法的验证误差相对于超参数的梯度？
RQ2在时间、空间和实时性适用性方面，反向模式和前向模式超梯度计算的取舍是什么？
RQ3通过前向模式的实时（在线）超参数更新，是否能显著加速大数据集上的超参数优化？
RQ4受限的超参数优化设置（例如稀疏性、非负性）如何影响 HO 的性能？
RQ5基于梯度的 HO 是否能够扩展到大模型和任务，在以往的基于梯度的方法难以实现的场景中？

主要发现

反向模式超梯度提供了一个基于拉格朗日的原理性梯度，但由于需要存储轨迹，空间复杂度较高。
当超参数数量相对于参数量较小时，前向模式超梯度可实现高效计算。
实时前向模式（RTRL 类似）允许在训练过程中更新超参数，实现对大型数据集的在线适应。
实验显示在数据清洗和多任务学习中的适用性，包括在先前梯度方法在大规模设置下不可行的情形。
受限的 HO（如 L1 稀疏性）有助于识别噪声样本并揭示多任务学习中的任务交互。
前向模式方法可以显著加速大数据集上的超参数优化，并支持在线更新。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。