[论文解读] Understanding Short-Horizon Bias in Stochastic Meta-Optimization
本文显示,短期目标会使学习率偏向非常小,导致长期表现较差;在随机、病态条件下的贪婪调度失败,如在嘈杂的二次模型和神经网络实验中所示。
Careful tuning of the learning rate, or even schedules thereof, can be crucial to effective neural net training. There has been much recent interest in gradient-based meta-optimization, where one tunes hyperparameters, or even learns an optimizer, in order to minimize the expected loss when the training procedure is unrolled. But because the training procedure must be unrolled thousands of times, the meta-objective must be defined with an orders-of-magnitude shorter time horizon than is typical for neural net training. We show that such short-horizon meta-objectives cause a serious bias towards small step sizes, an effect we term short-horizon bias. We introduce a toy problem, a noisy quadratic cost function, on which we analyze short-horizon bias by deriving and comparing the optimal schedules for short and long time horizons. We then run meta-optimization experiments (both offline and online) on standard benchmark datasets, showing that meta-optimization chooses too small a learning rate by multiple orders of magnitude, even when run with a moderately long time horizon (100 steps) typical of work in the area. We believe short-horizon bias is a fundamental problem that needs to be addressed if meta-optimization is to scale to practical neural net training regimes.
研究动机与目标
- 将学习率与动量调参作为神经网络训练的核心挑战之一。
- 证明具有极短时域的元优化目标会将超参数偏向小步长。
- 分析随机性与病态条件如何相互作用以产生短期偏差。
- 通过 toy 分析和神经网络实验证明,短期元优化的效果落后于固定调度。
- 提出在实际元优化中减轻短期偏差的方向。
提出的方法
- 提出一个带随机梯度的嘈杂二次代价模型,以分析带动量的 SGD。
- 在嘈杂二次设定下推导带动量的 SGD 的均值-方差动态。
- 计算贪婪最优(一步前瞻)学习率和动量调度。
- 在分析和经验层面比较贪婪最优与对长时域最优的调度。
- 在 MNIST 和 CIFAR-10 上进行离线/元学习实验以研究时域效应。
- 实现在线基于梯度的元优化(SMD)以在训练过程中自适应学习率和动量。
实验结果
研究问题
- RQ1短期元目标优化如何影响学习率与动量的选择?
- RQ2在何种条件下贪婪(一阶步前瞻)调度与长时域最优调度一致或偏离?
- RQ3随机性与病态条件对元优化性能的影响?
- RQ4更长时域的元优化是否能改善神经网络的长期训练性能?
- RQ5哪些实际策略可以减轻元优化中的短期偏差?
主要发现
- 短期元目标导致学习率过快衰减的偏差,从而损害长期进展。
- 在嘈杂、病态的二次设定中,贪婪调度在长期损失最小化方面可能远离最优。
- 确定性或球形设定使贪婪与最优调度对齐;随机性和病态条件导致短期偏差。
- 由短期驱动的在线和离线元优化在表现上劣于人工调优的固定学习率,有时差距很大。
- 更长的元目标时域产生倾向于更慢衰减、具有更好长期性能的调度,在 MNIST 和 CIFAR 实验中有明确证据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。