QUICK REVIEW

[论文解读] DeltaGrad: Rapid retraining of machine learning models

Yinjun Wu, Edgar Dobriban|arXiv (Cornell University)|Jun 26, 2020

Computational Physics and Python Applications被引用 36

一句话总结

DeltaGrad 提供一种快速重新训练模型的方法，当添加或移除少量训练样本时，通过缓存训练信息并使用 L-BFGS 的近似海森来高效更新模型。

ABSTRACT

Machine learning models are not static and may need to be retrained on slightly changed datasets, for instance, with the addition or deletion of a set of data points. This has many applications, including privacy, robustness, bias reduction, and uncertainty quantifcation. However, it is expensive to retrain models from scratch. To address this problem, we propose the DeltaGrad algorithm for rapid retraining machine learning models based on information cached during the training phase. We provide both theoretical and empirical support for the effectiveness of DeltaGrad, and show that it compares favorably to the state of the art.

研究动机与目标

在数据集变化时需要快速模型重新训练的动机（例如隐私、鲁棒性、偏差校正、不确定性量化）。
开发一种通用的重新训练方法，适用于通过 SGD/GD 求解的经验风险最小化，无需额外的随机化。
提供对增量更新精度的理论保证，并在标准数据集上展示经验上的加速。

提出的方法

引入 DeltaGrad，在小数据变化后使用离留出 r 的梯度公式来更新模型参数。
缓存全数据训练得到的梯度和参数向量，以便通过拟牛顿步（L-BFGS）在增量上近似新的梯度。
定期计算精确梯度（烧入期和每个 T0 次迭代），并使用历史增量来形成近似海森矩阵 B_t。
利用柯西中值定理将更新点的梯度与原点的梯度联系起来，从而实现高效近似。
将该方法扩展到带小批量的随机梯度下降（SGD），并在标准假设（强凸性、光滑性、梯度有界、海森矩阵的 Lipschitz 连续性）下给出收敛性保证。
给出复杂度分析，显示在 r 相对于 n 较小时，DeltaGrad 何时比从头重新训练更快。

实验结果

研究问题

RQ1当添加或删除少量训练样本时，DeltaGrad 能否高效地更新模型？
RQ2相比在更新后的数据集上重新训练，DeltaGrad 的精度有哪些理论保证？
RQ3在标准数据集和模型类型（逻辑回归、神经网络）上的速度和精度方面，DeltaGrad 的经验表现如何？
RQ4如何将 DeltaGrad 扩展到 SGD 与小批量设置，以及相关的收敛性质？
RQ5快速重新训练带来的实际应用有哪些（隐私、鲁棒性、去偏、以及不确定性量化）？

主要发现

DeltaGrad 在实验中实现了显著的加速（报告的实验中最高可达 6.5x），在添加或移除少量数据时几乎无精度损失。
DeltaGrad 产生的增量更新与真实重新训练的参数高度接近，距离精确解通常比基线偏差（w^U* − w^*）小一个数量级。
DeltaGrad 在多种数据集（MNIST、covtype、HIGGS、RCV1）上有效，并且也适用于简单神经网络和两层网络。
理论结果显示对于强凸目标，误差 ||w^U_t − w^I_t|| 是 o(r/n)，这意味着当数据变化比例减小时近似越发准确。
在 SGD 设置中，DeltaGrad 的误差界随小批量大小 B 增大而减小，表示当 B 较大且 r/n 较小时近似更为准确。
实验结果包括批量和在线的添加/删除，展示了稳健的加速和一致的预测性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。