QUICK REVIEW

[论文解读] Inexact Non-Convex Newton-Type Methods

Zhewei Yao, Peng Xu|arXiv (Cornell University)|Feb 20, 2018

Stochastic Gradient Optimization Techniques参考文献 34被引用 29

一句话总结

本文提出了一种不精确信赖域（TR）和自适应立方正则化（ARC）算法，通过近似梯度、海森矩阵和子问题解，在保持最优迭代复杂度的前提下实现。在温和的近似条件下，不精确TR达到$Ó(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$的复杂度，而不精确ARC在更强条件下恢复最优复杂度，且在实际实现中无需依赖未知问题参数。

ABSTRACT

For solving large-scale non-convex problems, we propose inexact variants of trust region and adaptive cubic regularization methods, which, to increase efficiency, incorporate various approximations. In particular, in addition to approximate sub-problem solves, both the Hessian and the gradient are suitably approximated. Using rather mild conditions on such approximations, we show that our proposed inexact methods achieve similar optimal worst-case iteration complexities as the exact counterparts. Our proposed algorithms, and their respective theoretical analysis, do not require knowledge of any unknowable problem-related quantities, and hence are easily implementable in practice. In the context of finite-sum problems, we then explore randomized sub-sampling methods as ways to construct the gradient and Hessian approximations and examine the empirical performance of our algorithms on some real datasets.

研究动机与目标

解决现有不精确牛顿方法的实用局限性，这些方法需要已知不可知的问题常数（如Lipschitz常数）。
设计不精确TR与ARC算法，使用近似梯度、海森矩阵和子问题解，且不依赖于难以估计的参数。
理论上保证不精确变体的最优最坏情况迭代复杂度，同时确保实际可实施性。
通过实证表明，所提方法在超参数选择上比以往的不精确方法更具鲁棒性。
弥合非凸优化中大规模问题的理论最优性与实际效率之间的差距。

提出的方法

提出算法1（不精确TR），使用不精确梯度、海森矩阵以及子问题的不精确解，并在温和近似条件下进行收敛性分析。
提出算法2（不精确ARC），在梯度、海森矩阵和子问题求解中采用类似不精确性，且在更强条件下实现最优复杂度。
引入近似条件（条件1–4与5–6），控制梯度、海森矩阵和子问题解中的误差，而无需依赖问题特定常数。
使用共轭梯度（CG-Steihaug）和广义Lanczos方法近似求解子问题，降低计算成本。
设计算法时确保实现过程中无需使用不可知的问题相关常数（如Lipschitz常数）。
通过仔细控制梯度、海森矩阵和子问题求解中的近似误差，确保理论收敛保证与精确对应物一致。

实验结果

研究问题

RQ1当梯度、海森矩阵和子问题解被近似时，不精确TR与ARC算法是否能保持与精确版本相同的最优迭代复杂度？
RQ2对梯度、海森矩阵和子问题解的近似条件应满足何种程度，才能保持最优收敛速率？
RQ3能否使不精确牛顿型方法在不依赖不可知问题参数（如Lipschitz常数）的前提下实现实际可实施？
RQ4在收敛速度和超参数鲁棒性方面，不精确TR与ARC与现有不精确方法相比表现如何？
RQ5所提方法是否在实际效率和鲁棒性上优于以往需要大量超参数调优的不精确方法？

主要发现

在温和近似条件下，不精确TR算法（算法1）实现了最优迭代复杂度$\mathcal{O}(\max\{\epsilon_g^{-2}\epsilon_H^{-1}, \epsilon_H^{-3}\})$。
在更强条件下，不精确ARC算法（算法2）实现了最优复杂度$\mathcal{O}(\max\{\epsilon_g^{-3/2}, \epsilon_H^{-3}\})$，与现有最佳理论界一致。
实证结果表明，不精确TR与ARC所需的前向传播次数仅为SubH TR的3–5倍，且仅为Full TR的5–10倍，表明其计算效率更优。
不精确ARC对初始立方正则化参数$\sigma_0$表现出高度鲁棒性，而SCR [47]则极为敏感，需大量超参数调优。
在子采样梯度与海森矩阵信息下，所提方法在收敛速度和稳定性方面均优于现有不精确变体（如SCR (GD) 和 SCR (Lanczos)）。
与以往依赖此类假设进行理论分析的方法不同，所提算法在无需知晓不可知问题常数的情况下即可实际实施。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。