[论文解读] A Quasi-Newton Approach to Nonsmooth Convex Optimization
该论文通过将局部二次建模、下降方向识别和Wolfe线搜索等关键组件推广至次微分,将BFGS和LBFGS拟牛顿方法扩展至非光滑凸优化。所提出的subBFGS算法在目标函数值上保证全局收敛,并在L2-正则化合页损失和L1-正则化逻辑回归损失问题上优于当前最先进的求解器。
We extend the well-known BFGS quasi-Newton method and its memory-limited variant LBFGS to the optimization of nonsmooth convex objectives. This is done in a rigorous fashion by generalizing three components of BFGS to subdifferentials: the local quadratic model, the identification of a descent direction, and the Wolfe line search conditions. We prove that under some technical conditions, the resulting subBFGS algorithm is globally convergent in objective function value. We apply its memory-limited variant (subLBFGS) to L2-regularized risk minimization with the binary hinge loss. To extend our algorithm to the multiclass and multilabel settings, we develop a new, efficient, exact line search algorithm. We prove its worst-case time complexity bounds, and show that our line search can also be used to extend a recently developed bundle method to the multiclass and multilabel settings. We also apply the direction-finding component of our algorithm to L1-regularized risk minimization with logistic loss. In all these contexts our methods perform comparable to or better than specialized state-of-the-art solvers on a number of publicly available data sets. An open source implementation of our algorithms is freely available.
研究动机与目标
- 解决在大规模学习设置中缺乏高效拟牛顿方法用于非光滑凸优化的问题。
- 通过将核心组件推广至次微分,将BFGS和LBFGS框架扩展至处理非光滑目标函数。
- 为多类和多标签问题的扩展开发一种高效且精确的线搜索算法。
- 使方向寻找组件能够应用于L1-正则化逻辑回归损失问题,并实现与专用求解器相当或更优的性能。
- 提供开源实现,以支持可复现性和实际部署。
提出的方法
- 使用次微分代替梯度,将BFGS中的局部二次模型推广至非光滑目标函数。
- 调整下降方向识别步骤以适用于次梯度,确保目标函数的充分下降。
- 将Wolfe线搜索条件推广至基于次微分的曲率条件,同时保持充分下降和曲率要求。
- 提出subLBFGS作为大规模问题的内存受限变体,仅存储少量最近的更新以近似Hessian矩阵。
- 设计一种针对多类和多标签问题的新精确线搜索算法,并证明其最坏情况时间复杂度界。
- 将方向寻找组件集成至L1-正则化逻辑回归损失最小化中,利用相同的次微分框架。
实验结果
研究问题
- RQ1能否通过次微分严格地将BFGS框架扩展至非光滑凸目标函数?
- RQ2在何种条件下可确保所提出的subBFGS算法在目标函数值上的全局收敛性?
- RQ3如何在基于次微分的框架下,实现在多类和多标签设置中的高效且精确的线搜索?
- RQ4所提出的方法能否在具有非光滑损失的真实学习问题上优于专用的最先进求解器?
- RQ5所提出的多类和多标签设置下精确线搜索算法的最坏情况时间复杂度是多少?
主要发现
- 在适当的工程技术条件下,subBFGS算法在目标函数值上具有全局收敛性,将BFGS的收敛性保证推广至非光滑设置。
- subLBFGS变体在多个公开数据集上的L2-正则化风险最小化问题(二值合页损失)中,性能与当前最先进求解器相当或更优。
- 为多类和多标签问题提出的精确线搜索算法具有有界最坏情况时间复杂度,使得束方法可扩展至这些设置。
- 该算法的方向寻找组件在L1-正则化逻辑回归损失最小化中表现有效,性能与专用求解器相当或更优。
- 算法的开源实现已公开发布,便于复现和实际部署。
- 实验结果表明,该方法在包括二值和多类/多标签分类在内的多种学习任务中均表现出稳健性能,且损失函数为非光滑形式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。