QUICK REVIEW

[论文解读] Learning with SGD and Random Features

Luigi Carratino, Alessandro Rudi|arXiv (Cornell University)|Jul 17, 2018

Face and Expression Recognition被引用 34

一句话总结

本文研究了在非参数学习中使用随机特征的随机梯度下降（SGD），表明仅使用 $\sqrt{n}$ 个随机特征即可实现最优的 $O(1/\sqrt{n})$ 泛化误差。该方法通过学习率、小批量大小和迭代次数等超参数实现隐式正则化，从而在无需显式惩罚的情况下实现高效的规模化学习。

ABSTRACT

Sketching and stochastic gradient methods are arguably the most common techniques to derive efficient large scale learning algorithms. In this paper, we investigate their application in the context of nonparametric statistical learning. More precisely, we study the estimator defined by stochastic gradient with mini batches and random features. The latter can be seen as form of nonlinear sketching and used to define approximate kernel methods. The considered estimator is not explicitly penalized/constrained and regularization is implicit. Indeed, our study highlights how different parameters, such as number of features, iterations, step-size and mini-batch size control the learning properties of the solutions. We do this by deriving optimal finite sample bounds, under standard assumptions. The obtained results are corroborated and illustrated by numerical experiments.

研究动机与目标

分析在非参数回归中使用随机特征的SGD时，统计性能与计算效率之间的权衡。
理解学习率、小批量大小和迭代次数等超参数如何引发隐式正则化。
在标准假设下，推导SGD与随机特征估计器的有限样本泛化界。
通过SUSY和HIGGS等真实数据集上的实验验证理论结果。
证明 $\sqrt{n}$ 个随机特征足以实现最优学习率，从而避免显式正则化。

提出的方法

将学习问题表述为在再生核希尔伯特空间上的最小二乘回归，使用随机特征。
采用小批量随机梯度下降，结合随机特征映射 $\phi_M(x)$ 来估计模型权重 $w$。
使用独立同分布的 $w \sim \mathcal{N}(0, \Sigma)$ 和 $q \sim \text{Unif}[0, 2\pi]$ 的随机傅里叶特征，以近似平移不变核函数。
在标准假设下分析估计器，包括有界特征映射和次高斯噪声。
通过将SGD与随机特征的关系映射到岭回归，并利用核算子的谱性质，推导出有限样本界。
运用核方法和随机矩阵理论的理论工具，刻画 $M$、$n$、$T$、$b$ 和 $\gamma_t$ 之间的相互作用。

实验结果

研究问题

RQ1在使用随机特征的SGD中，为实现 $O(1/\sqrt{n})$ 泛化误差，最优的随机特征数 $M$ 是多少？
RQ2学习率 $\gamma_t$、小批量大小 $b$ 和迭代次数 $T$ 如何影响解的稳定性和泛化性能？
RQ3通过SGD与随机特征实现的隐式正则化，能否达到与岭回归等显式正则化方法相当的统计性能？
RQ4在此框架下，计算成本（如遍历次数、小批量大小）与测试误差之间存在何种权衡？
RQ5当 $M \sim \sqrt{n}$ 时，性能如何随 $n$ 增大而变化？进一步增加 $M$ 是否能提升精度？

主要发现

仅使用 $M = \Theta(\sqrt{n})$ 个随机特征，估计器即可实现 $O(1/\sqrt{n})$ 的泛化误差，与岭回归的最优速率一致。
当随机特征数超过 $\sqrt{n}$ 后，测试精度不再提升，验证了理论预测。
学习率 $\gamma_t$ 必须与小批量大小 $b$ 成比例，才能维持最优性能；更大的 $b$ 允许使用更大的 $\gamma_t$。
当小批量大小超过 $\sqrt{n}$ 时，单次数据遍历不足以达到最优误差，必须进行多次遍历。
该方法在无需显式正则化的情况下实现了最优统计性能，其隐式控制由 $M$、$T$、$b$ 和 $\gamma_t$ 共同实现。
SUSY 和 HIGGS 数据集上的数值实验表明，当 $M \sim \sqrt{n}$ 时测试误差趋于平稳，且仅当 $\gamma_t$ 与 $b$ 成比例时才能达到最优误差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。