[论文解读] Self-Tuning Networks: Bilevel Optimization of Hyperparameters using Structured Best-Response Functions
STNs 在线学习超参数,通过用紧凑的超网络门近似最佳响应来实现离散且随机的超参数,并产生成绩提升的调度表,适用于 PTB、CIFAR-10 等。
Hyperparameter optimization can be formulated as a bilevel optimization problem, where the optimal parameters on the training set depend on the hyperparameters. We aim to adapt regularization hyperparameters for neural networks by fitting compact approximations to the best-response function, which maps hyperparameters to optimal weights and biases. We show how to construct scalable best-response approximations for neural networks by modeling the best-response as a single network whose hidden units are gated conditionally on the regularizer. We justify this approximation by showing the exact best-response for a shallow linear network with L2-regularized Jacobian can be represented by a similar gating mechanism. We fit this model using a gradient-based hyperparameter optimization algorithm which alternates between approximating the best-response around the current hyperparameters and optimizing the hyperparameters using the approximate best-response function. Unlike other gradient-based approaches, we do not require differentiating the training loss with respect to the hyperparameters, allowing us to tune discrete hyperparameters, data augmentation hyperparameters, and dropout probabilities. Because the hyperparameters are adapted online, our approach discovers hyperparameter schedules that can outperform fixed hyperparameter values. Empirically, our approach outperforms competing hyperparameter optimization methods on large-scale deep learning problems. We call our networks, which update their own hyperparameters online during training, Self-Tuning Networks (STNs).
研究动机与目标
- 将超参数优化动机化为一个二层问题,即训练权重依赖于超参数。
- 提出一种可扩展、内存高效的神经网络最佳响应近似。
- 开发 Self-Tuning Networks,使超参数能够在线更新,而无需对超参数对训练损失求导。
- 证明 STNs 产生的超参数调度在大规模数据集上可以提升性能。
提出的方法
- 将二层问题建模为上层目标 F、下层目标 f,并引入最佳响应 w*(λ)。
- 用参数化函数 φ 近似最佳响应,并使用近似最佳响应(Equation 3)来优化 λ。
- 提出一个内存高效的最佳响应模块,其中逐层权重/偏置为 Ŵφ(λ)=Welem+(Vλ)⊙rowWhyper 和 b̂φ(λ)=belem+(Cλ)⊙bhyper(Equation 10)。
- 在两层线性网络中对带有 L2 雅可比正则化的最佳响应的严格性(定理 2)进行论证。
- 对于小的超参数范围,提供线性(仿射)门控变体,确保在二次下层损失下的雅可比为正确(定理 3)。
- 描述带有熵项的 σ 的自适应超参数邻域采样,以在探索与局部保真度之间取得平衡(Equation 15)。
实验结果
研究问题
- RQ1是否可以学习一个紧凑、可微的最佳响应映射 W*(λ),以实现基于梯度的超参数优化?
- RQ2在线调整的超参数是否能产生比固定超参数在大规模神经网络架构上更好的调度?
- RQ3该方法是否能在不对超参数求导训练损失的情况下处理离散且随机的超参数?
- RQ4所提出的 STN 架构是否可扩展到深度网络并适用于标准基准(PTB、CIFAR-10)?
主要发现
- STNs 在训练过程中发现了超参数调度,在 PTB 和 CIFAR-10 实验中优于固定超参数值。
- 与网格搜索、随机搜索和贝叶斯优化相比,STNs 在 PTB 和 CIFAR-10 任务上更快地获得更好的验证/测试性能。
- 使用仿射门控的局部近似最佳响应在二次下层损失下仍然有效,能保持正确的梯度信息(定理 3)。
- 仿射最佳响应架构(Ŵφ(λ), b̂φ(λ))是内存高效的,权重参数量为 O(Dout(2Din+n),偏置为 O(Dout(2+n))(Equation 11)。
- STNs 产生可解释的超参数调度,例如在训练过程中改变 dropout 分量以形成提升泛化能力的课程。
- 在 PTB 上,基于 STN 的 LSTM 验证困惑度为 70.30,测试困惑度为 67.68,优于表 2 中的网格、随机和贝叶斯方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。