[论文解读] Optimizing Millions of Hyperparameters by Implicit Differentiation
本文提出了一种基于梯度的超参数优化方法,使用隐函数定理与 Neumann-series inverse Hessian 将 HO 扩展到拥有数百万个超参数的大型神经网络。
We propose an algorithm for inexpensive gradient-based hyperparameter optimization that combines the implicit function theorem (IFT) with efficient inverse Hessian approximations. We present results about the relationship between the IFT and differentiating through optimization, motivating our algorithm. We use the proposed approach to train modern network architectures with millions of weights and millions of hyper-parameters. For example, we learn a data-augmentation network - where every weight is a hyperparameter tuned for validation performance - outputting augmented training examples. Jointly tuning weights and hyperparameters with our approach is only a few times more costly in memory and compute than standard training.
研究动机与目标
- 动机并将超参数优化(HO)形式化为嵌套优化,其中超参数通过模型权重的最佳响应影响验证损失。
- 引入一种稳定且节省内存的逆 Hessian 近似,以使在大规模优化过程中能够对优化进行微分。
- 展示基于 IFT 的 HO 对大型体系结构和高维超参数的可扩展性。
- 展示实际的 HO 应用,如逐参数正则化、数据蒸馏和学习数据增强。
提出的方法
- 将 HO 表述为一个嵌套优化问题,包含训练损失 L_T 和验证损失 L_V;超参数 lambda 被优化以最小化 L_V*,其中 w*(lambda) 最小化 L_T。
- 将超梯度分解为直接项与涉及最佳响应雅可比 ∂w*/∂lambda^T 的间接项;强调间接项通常是瓶颈。
- 使用隐函数定理通过逆训练 Hessian ∂^2 L_T/∂w∂w^T 和混合偏导 ∂^2 L_T/∂w∂lambda^T 表达 ∂w*/∂lambda。
- 提出基于 Neumann-series 的逆-Hessian 近似,使得常数内存计算成为可能,并与展开求导相绑定;提供向量-雅可比积框架以提升效率。
- 给出三种算法:(i) 基于梯度的 HO 及隐式微分;(ii) 近似逆 HVP 的例程;(iii) 基于 Neumann-series 的超梯度计算,在迭代次数 i 与精度之间进行权衡。
实验结果
研究问题
- RQ1隐函数定理是否可用于高维超参数高效计算超梯度?
- RQ2稳定的、常内存的逆-Hessian 近似是否能在现代大型神经网络上实现实际的 HO?
- RQ3在 HO 的背景下,展开求导与 IFT 之间的关系是什么,以及如何有效地将二者结合?
- RQ4权重与超参数的联优化如何影响数据增强、数据集蒸馏和逐参数正则化?
- RQ5将 HO 扩展到数百万超参数时的内存与计算权衡是什么?
主要发现
- 提出的 Neumann-series inverse-Hessian 近似实现了稳定、常内存的超梯度计算。
- IFT-based hypergradients 收敛到真解,当展开近似变得更加准确时,建立了展开优化与 IFT 的联系。
- 该方法可扩展到如 AlexNet 和 LSTM 语言模型等具有数百万权重和超参数的大型架构。
- 该方法使逐参数正则化、数据蒸馏(每个类别一个蒸馏图像)和学习数据增强等应用成为可能。
- 实证结果表明在优化大量超参数时,标准的训练/验证分割可能不足,因此需要在联合训练-验证数据上重新训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。