[论文解读] Scalable Kernel Methods via Doubly Stochastic Gradients
本文提出双重随机函数梯度(DSFG)方法,通过结合随机训练样本与随机特征,近似核岭回归和分类中的函数梯度,从而实现大规模数据集上核方法的可扩展性。该方法实现 O(1/t) 的收敛速率与 O(1/√t) 的泛化误差,其在 230 万分子、800 万 MNIST 和 100 万 ImageNet 数据集上的性能与神经网络相当,同时将内存需求从 O(n²) 降低至 O(n)。
The general perception is that kernel methods are not scalable, and neural nets are the methods of choice for nonlinear learning problems. Or have we simply not tried hard enough for kernel methods? Here we propose an approach that scales up kernel methods using a novel concept called "doubly stochastic functional gradients". Our approach relies on the fact that many kernel methods can be expressed as convex optimization problems, and we solve the problems by making two unbiased stochastic approximations to the functional gradient, one using random training points and another using random functions associated with the kernel, and then descending using this noisy functional gradient. We show that a function produced by this procedure after $t$ iterations converges to the optimal function in the reproducing kernel Hilbert space in rate $O(1/t)$, and achieves a generalization performance of $O(1/\sqrt{t})$. This doubly stochasticity also allows us to avoid keeping the support vectors and to implement the algorithm in a small memory footprint, which is linear in number of iterations and independent of data dimension. Our approach can readily scale kernel methods up to the regimes which are dominated by neural nets. We show that our method can achieve competitive performance to neural nets in datasets such as 8 million handwritten digits from MNIST, 2.3 million energy materials from MolecularSpace, and 1 million photos from ImageNet.
研究动机与目标
- 解决核方法因密集核矩阵导致的 O(n²) 内存与计算瓶颈问题。
- 克服低秩近似与随机特征近似带来的局限性,后者在不随 n 增大而提升秩或特征数量时会降低泛化性能。
- 在新数据持续到达时支持流式学习,并动态扩展函数类的灵活性。
- 为核方法开发一种简单高效的优化框架,避免存储所有支持向量。
- 在不牺牲统计性能的前提下,实现最优的收敛与泛化速率。
提出的方法
- 将核方法表述为在再生核希尔伯特空间(RKHS)中对函数的凸优化问题。
- 利用两个独立的随机源——随机训练点与与核函数关联的随机特征——来近似函数梯度。
- 使用无偏的随机近似来逼近函数梯度,从而实现高效的函数梯度下降,每轮迭代仅需 O(n) 内存与 O(nrd) 计算量。
- 随着数据的到来,动态增加随机特征的数量,从而在流式设置中灵活扩展模型容量。
- 利用双重随机性,在避免显式存储核矩阵的同时,维持收敛性保证。
- 支持通过 Fastfood、准蒙特卡洛方法或通过反向传播自适应学习特征的扩展。
实验结果
研究问题
- RQ1核方法能否在大规模非线性学习任务上实现与深度神经网络相当的性能?
- RQ2我们能否设计一种可扩展的核方法,避免传统核方法 O(n²) 的内存与计算开销?
- RQ3尽管存在两个噪声源,双重随机函数梯度方法是否仍能保持最优的收敛与泛化速率?
- RQ4该方法能否在不重新训练的前提下,自适应地在流式设置中扩展模型容量?
- RQ5该方法在真实世界大规模数据集上的性能与神经网络相比如何?
主要发现
- 所提出的 DSFG 方法在 RKHS 中实现 O(1/t) 的收敛速率,达到随机凸优化的最优已知速率。
- 泛化误差以 O(1/√t) 收敛,且与输入维度无关,展现出强大的统计性能。
- 在 MolecularSpace 提供的 230 万分子数据集上,该方法实现了 2.97 kcal/mol 的平均绝对误差(MAE),优于神经网络(3.51 kcal/mol)。
- 在 800 万 MNIST 数据集上,该方法在收敛速度更快的同时,性能与神经网络相当。
- 在使用卷积特征的 100 万 ImageNet 数据集上,该方法实现了具有竞争力的准确率与速度,优于使用预训练特征的神经网络。
- 该方法将内存使用从 O(n²) 降低至 O(n),使得在以往由神经网络主导的大规模数据集上实现实际部署成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。