QUICK REVIEW

[论文解读] Data Sketching for Faster Training of Machine Learning Models.

Baharan Mirzasoleiman, Jeff Bilmes|arXiv (Cornell University)|Jun 5, 2019

Stochastic Gradient Optimization Techniques参考文献 11被引用 2

一句话总结

CRAIG 提出了一种数据制图方法，通过选择训练数据的加权子集（核心集）来加速增量梯度（IG）优化。通过最大化一个子模函数以近似完整梯度，CRAIG 确保以与全批量 IG 相同的速率收敛至近似最优解，在逻辑回归上实现高达 6 倍的加速，在深度神经网络上实现 3 倍加速，且不损失模型性能。

ABSTRACT

Incremental gradient (IG) methods, such as stochastic gradient descent and its variants are commonly used for large scale optimization in machine learning. Despite the sustained effort to make IG methods more data-efficient, it remains an open question how to select a training data subset that can theoretically and practically perform on par with the full dataset. Here we develop CRAIG, a method to select a weighted subset (or coreset) of training data that closely estimates the full gradient by maximizing a submodular function. We prove that applying IG to this subset is guaranteed to converge to the (near)optimal solution with the same convergence rate as that of IG for convex optimization. As a result, CRAIG achieves a speedup that is inversely proportional to the size of the subset. To our knowledge, this is the first rigorous method for data-efficient training of general machine learning models. Our extensive set of experiments show that CRAIG, while achieving practically the same solution, speeds up various IG methods by up to 6x for logistic regression and 3x for training deep neural networks.

研究动机与目标

解决选择数据子集以保持全批量增量梯度方法收敛特性的挑战。
开发一种理论基础坚实的、适用于通用机器学习模型的数据高效训练方法。
确保在核心集上训练可实现与全数据集训练相同的收敛速率，适用于凸优化问题。
在保持模型精度的前提下，显著缩短各类模型（如逻辑回归和深度神经网络）的训练时间。

提出的方法

CRAIG 将数据子集选择问题表述为最大化一个近似完整梯度的子模函数。
通过选择能最大化梯度近似质量的数据点来构建核心集，从而确保理论收敛保证。
该方法使用贪心算法基于梯度估计的边际增益选择数据点，利用子模性实现近似最优选择。
所选核心集用于在增量梯度方法中计算梯度，替代全批量计算。
理论分析证明，使用 CRAIG 核心集的 IG 在凸优化中收敛速率与全批量 IG 相同。
该方法适用于广泛模型，包括逻辑回归和深度神经网络，且修改极少。

实验结果

研究问题

RQ1能否选择一个数据子集，使得增量梯度方法的收敛速率与全批量方法相同？
RQ2是否存在一种理论基础坚实的方法，可有效选择近似完整梯度的核心集？
RQ3通过子模优化实现的数据制图能否在不损害模型精度的前提下实现显著的训练加速？
RQ4CRAIG 在不同机器学习模型上的性能与全批量训练相比如何？

主要发现

CRAIG 在逻辑回归上实现高达 6 倍的训练时间加速，同时保持与全数据集训练相当的模型性能。
对于深度神经网络，CRAIG 实现高达 3 倍的加速，且与全批量训练相比精度无显著下降。
理论分析证实，使用 CRAIG 核心集的增量梯度在凸优化中收敛速率与全批量梯度下降相同。
该方法是首个为通用机器学习模型提供数据高效训练严格理论保证的方法。
实验结果表明，CRAIG 的核心集选择可生成与全数据集非常接近的梯度近似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。