[论文解读] Approximate Data Deletion from Machine Learning Models
提出 Projective Residual Update (PRU) 用于快速近似数据删除,在线性与逻辑模型中成本随特征维度 d 线性且与训练规模 n 无关;并引入特征注入测试(FIT)来评估删除质量。
Deleting data from a trained machine learning (ML) model is a critical task in many applications. For example, we may want to remove the influence of training points that might be out of date or outliers. Regulations such as EU's General Data Protection Regulation also stipulate that individuals can request to have their data deleted. The naive approach to data deletion is to retrain the ML model on the remaining data, but this is too time consuming. In this work, we propose a new approximate deletion method for linear and logistic models whose computational cost is linear in the the feature dimension $d$ and independent of the number of training data $n$. This is a significant gain over all existing methods, which all have superlinear time dependence on the dimension. We also develop a new feature-injection test to evaluate the thoroughness of data deletion from ML models.
研究动机与目标
- 在隐私法规(如“被遗忘权”)下,阐明从已训练的机器学习模型中删除训练数据的必要性。
- 引入一种快速近似删除方法,其成本随特征维度而非数据规模线性增长。
- 开发一种新的评估度量(特征注入测试,Feature Injection Test)来量化对敏感属性的删除效果。
- 提供理论保证,表明 PRU 在梯度基更新的一类中的最优性。
- 使用合成数据集和真实数据集对线性回归和逻辑回归进行实验以验证该方法。
提出的方法
- 引入投影残差更新(PRU),它将精确参数更新投影到被删除点的特征张成的子空间上。
- 利用帽子矩阵进行留出 k 点的残差计算(LKO),在无需完全重新训练的情况下估计预测。
- 计算被删除特征的外积和的低维伪逆,以获得成本为 O(k^2 d) 的 PRU 更新。
- 证明 PRU 在被删除点的张成子空间内实现了尽可能好的更新(定理 1)。
- 通过迭代加权最小二乘和快速牛顿步近似(算法 3)将 PRU 扩展到逻辑回归。
- 提出特征注入测试(FIT),以量化删除方法在多大程度上移除了与标签完全相关的合成特征的知识。
实验结果
研究问题
- RQ1我们是否可以在不从头重新训练的情况下高效地删除一批 k 的训练点?
- RQ2与现有方法(Exact、Influence、Newton 基)相比,PRU 的计算成本与精度权衡如何?
- RQ3PRU 在使用特征注入测试(FIT)测量时,对敏感属性信息的移除效果如何?
- RQ4PRU 是否可以在逻辑回归中获得类似的效率保证?
主要发现
| 方法 | 渐近成本 |
|---|---|
| Exact | O(kd^2) |
| Influence | O(d^2) |
| Projective residual | O(k^2 d) |
- PRU 实现了成本为 O(k^2 d) 的更新,与 n 无关,且与被删除数据维度线性相关,在一类梯度基更新中是最优的。
- PRU 在删除较大或类似异常值的删除以及稀疏数据情形下,优于基于影响的方法,在困难删除下具有更好的稳定性。
- 实验表明在高 d、低 k 时,PRU 比完全重训练快得多(在某些设置下可达到最高约 3000 倍的加速)。
- 特征注入测试(FIT)表明在若干场景中,PRU 相对于影响方法更有效地移除了注入的高度预测性特征,凸显了隐私导向的优势。
- PRU 通过快速牛顿步近似推广到逻辑回归,具有类似的 O(k^2 d) 复杂度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。