QUICK REVIEW

[论文解读] A closed loop gradient descent algorithm applied to Rosenbrock's function

Subhransu S. Bhattacharjee, Ian R. Petersen|arXiv (Cornell University)|Aug 29, 2021

Sparse and Compressive Sensing Techniques参考文献 21被引用 5

一句话总结

该论文提出了一种名为Whiplash的闭环梯度下降算法，通过反馈控制自适应调整阻尼，以加速非凸优化问题的收敛。通过基于当前速度和梯度的非线性反馈律动态调节动量，该算法在Rosenbrock函数上实现了快速且稳定的收敛，优于标准动量方法，并在远少于ADAM或Nesterov方法的迭代次数内解决了病态条件问题。

ABSTRACT

We introduce a novel adaptive damping technique for an inertial gradient system which finds application as a gradient descent algorithm for unconstrained optimisation. In an example using the non-convex Rosenbrock's function, we show an improvement on existing momentum-based gradient optimisation methods. Also using Lyapunov stability analysis, we demonstrate the performance of the continuous-time version of the algorithm. Using numerical simulations, we consider the performance of its discrete-time counterpart obtained by using the symplectic Euler method of discretisation.

研究动机与目标

解决一阶方法在病态非凸问题（如Rosenbrock函数）上收敛性差的问题，该问题具有较高的谱条件数（κ = 2508）。
克服开环动量方案（如Nesterov、Heavy Ball）缺乏自适应控制、在刚性系统中易出现不稳定或收敛缓慢的局限性。
通过将阻尼视为反馈控制变量，采用控制理论方法优化梯度下降动力学，提升瞬态响应和收敛速度。
在连续时间和离散时间中证明闭环控制优于开环动量，尤其适用于高曲率和深谷问题。
对连续时间系统进行基于李雅普诺夫的稳定性分析，并通过数值模拟中的辛欧拉离散化验证性能。

提出的方法

将连续时间惯性系统建模为二阶常微分方程：¨X + γ(t)˙X + ∇f(X) = 0，其中阻尼γ(t)是速度和梯度的反馈函数。
设计非线性反馈律用于阻尼：αk = 1 − √s − k s ||zk||²，其中zk = xk − xk−1表示动量，实现基于当前状态的自适应阻尼。
实施两步初始化：第一步执行标准梯度下降以设定初始动量z1 = x1 − x0。
使用辛欧拉方法进行时间离散化，以保持离散时间系统中的几何结构和稳定性。
构建一个离散时间算法（算法1），在无需学习率或动量衰减等超参数的情况下，通过反馈回路更新位置、动量和阻尼。
引入变量变换zk = √s vk−1以简化收敛性分析，并在时间步长间保持动力学几何结构。

实验结果

研究问题

RQ1闭环反馈机制对阻尼是否能改善病态非凸问题中梯度下降的收敛速度和稳定性？
RQ2基于当前速度和梯度的自适应阻尼与固定或开环动量方案相比，在收敛速率和鲁棒性方面表现如何？
RQ3在Rosenbrock函数等刚性系统上，使用辛欧拉离散化时，该算法的离散时间版本性能如何？
RQ4能否应用李雅普诺夫稳定性分析证明所提闭环系统的收敛性？李雅普诺夫函数的形式是什么？
RQ5该算法在Rosenbrock函数上是否比ADAM和Nesterov方法收敛更快，尤其是在严格收敛阈值下？

主要发现

Whiplash算法在所有测试初始条件下（包括(5, -3)）均成功收敛至Rosenbrock函数的全局最小值点(1,1)，且迭代次数在合理范围内。
当步长s ≤ 10⁻⁵时，算法避免了不稳定性及动量发散，实现了标准梯度方法失效时的收敛。
数值结果表明动量增长存在饱和效应（图6），表明收敛过程稳定、受控，无振荡或发散。
算法轨迹（图8）显示沿长而狭窄的山谷平滑、直接地收敛至全局最小值，避免了局部极小值和鞍点。
该算法在收敛速度上优于ADAM和Nesterov方法，达到ϵ = 10⁻⁸精度所需迭代次数显著少于10⁵次。
辛欧拉离散化保持了系统几何结构，确保了离散时间实现中稳定且精确的数值性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。