[论文解读] On the asymptotic rate of convergence of Stochastic Newton algorithms and their Weighted Averaged versions
本文提出了一类新型的随机牛顿算法及其加权平均变体(WASNA),用于机器学习中的在线优化,通过利用Riccati公式实现高效的Hessian逆矩阵更新,借助二阶信息。该方法实现了O(1/n)的收敛速率,具有渐近效率,并在合成数据集和真实世界数据集(如MNIST)上显著优于一阶方法,尤其是在初始化不佳的情况下。
The majority of machine learning methods can be regarded as the minimization of an unavailable risk function. To optimize the latter, given samples provided in a streaming fashion, we define a general stochastic Newton algorithm and its weighted average version. In several use cases, both implementations will be shown not to require the inversion of a Hessian estimate at each iteration, but a direct update of the estimate of the inverse Hessian instead will be favored. This generalizes a trick introduced in [2] for the specific case of logistic regression, by directly updating the estimate of the inverse Hessian. Under mild assumptions such as local strong convexity at the optimum, we establish almost sure convergences and rates of convergence of the algorithms, as well as central limit theorems for the constructed parameter estimates. The unified framework considered in this paper covers the case of linear, logistic or softmax regressions to name a few. Numerical experiments on simulated data give the empirical evidence of the pertinence of the proposed methods, which outperform popular competitors particularly in case of bad initializa-tions.
研究动机与目标
- 开发在线学习设置下随机牛顿算法及其平均版本的统一框架。
- 通过使用Riccati公式避免每次迭代中完整计算Hessian逆矩阵,实现在低每轮计算成本下进行二阶优化。
- 在较弱假设下建立理论收敛速率和渐近效率。
- 与SGD和Adagrad等一阶方法相比,提升对不良初始化的鲁棒性。
- 在真实世界数据集(如MNIST)上评估性能,尽管计算成本较高,仍展现出实际优越性。
提出的方法
- 提出一类通用的随机牛顿算法(SNA)及其加权平均变体(WASNA),用于最小化期望风险函数。
- 采用基于Riccati(Sherman-Morrison)更新公式的递归Hessian逆矩阵估计方法,将每轮计算成本从O(d³)降低至O(d²)。
- 使用形式为(n + c)⁻γ的自适应步长,其中γ ∈ (0.5, 1),确保理论收敛性和稳定性。
- 应用非均匀平均方案——标准权重与对数权重——以提升实际性能并降低对初始化的敏感性。
- 在较弱假设下推导理论收敛速率,包括有界Hessian特征值和损失函数的光滑性。
- 采用灵活的框架,适用于逻辑回归、Softmax回归和线性模型,结构约束极少。
实验结果
研究问题
- RQ1是否可以在不每次迭代中求逆Hessian矩阵的前提下,使在线设置下的二阶随机优化在计算上可行?
- RQ2在较弱正则性条件下,平均化的随机牛顿方法的渐近收敛速率是多少?
- RQ3加权平均方案(标准与对数权重)如何影响实际性能和对初始化的鲁棒性?
- RQ4所提方法是否能在收敛速度和精度方面优于SGD和Adagrad等一阶在线算法,尤其是在初始化不良时?
- RQ5基于Riccati的Hessian逆矩阵更新在降低计算成本的同时,能在多大程度上保持理论保证?
主要发现
- 所提出的WASNA算法实现了O(1/n)的渐近收敛速率,与平均化一阶方法的理论效率相匹配。
- 在具有相关特征的逻辑回归上的数值实验表明,WASNA显著优于SGD、ASGD和Adagrad,尤其在远离最优解初始化时(例如,r₀ = 5)。
- 在MNIST数据集上,WASNA默认配置在Softmax回归中实现了88%的测试准确率,与或优于一阶基线方法,尽管未进行超参数调优。
- MNIST上的混淆矩阵显示,WASNA产生分布均匀的预测模式,仅有中等程度的误分类,表明其具有鲁棒的泛化能力。
- 实践中,WASNA中的对数权重始终优于标准平均,展现出更高的稳定性并降低了对初始化的敏感性。
- 基于Riccati的Hessian逆矩阵更新使每轮计算复杂度达到O(d²),使得大规模问题的二阶在线学习成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。