QUICK REVIEW

[论文解读] Making AI Forget You: Data Deletion in Machine Learning

Antonio Ginart, Melody Y. Guan|arXiv (Cornell University)|Jul 11, 2019

Privacy-Preserving Technologies in Data参考文献 85被引用 71

一句话总结

本文将机器学习中的数据删除形式化，并提出两种删除高效的 k-means 算法（Q-kmeans 和 DC-kmeans），具备理论保证，并在标准再训练上实现了显著的实际加速，同时保持聚类质量。

ABSTRACT

Intense recent discussions have focused on how to provide individuals with control over when their data can and cannot be used --- the EU's Right To Be Forgotten regulation is an example of this effort. In this paper we initiate a framework studying what to do when it is no longer permissible to deploy models derivative from specific user data. In particular, we formulate the problem of efficiently deleting individual data points from trained machine learning models. For many standard ML models, the only way to completely remove an individual's data is to retrain the whole model from scratch on the remaining data, which is often not computationally practical. We investigate algorithmic principles that enable efficient data deletion in ML. For the specific setting of k-means clustering, we propose two provably efficient deletion algorithms which achieve an average of over 100X improvement in deletion efficiency across 6 datasets, while producing clusters of comparable statistical quality to a canonical k-means++ baseline.

研究动机与目标

将从已训练的 ML 模型中删除单个数据点的问题形式化。
在在线/删除设置下定义删除效率并建立下界。
为 k-means 聚类开发具备理论保证的删除高效算法。
在多样化数据集上进行经验评估，涵盖删除效率与聚类质量。
提供面向删除高效学习系统的设计工具箱与原则。

提出的方法

将数据删除定义为产生的模型在分布上不可与未删除点训练的模型区分。
提出两种删除高效的 k-means 变体：量化 k-means（Q-kmeans）与分治 k-means（DC-kmeans）。
Q-kmeans：将质心量化到 epsilon-格点，记忆化状态，应用平衡矫正，并对不稳定迭代使用提前终止。
DC-kmeans：构建一个 w-叉树，使用 k-means++ 求解子问题，并向上合并树上的质心以实现局部删除。
分析删除时间复杂度并在特定条件下给出 Q-kmeans 删除的期望时间为 O(m^2 d^{5/2}/epsilon)；为 DC-kmeans 删除界给出命题/证明要点。
提出四条删除高效系统的设计原则（线性、懒惰、模块化、量化）。

实验结果

研究问题

RQ1如何以计算上有意义的方式定义和衡量 ML 模型中的数据删除？
RQ2在不从头重新训练的前提下，是否可以高效删除单个训练点，同时保留模型质量？
RQ3可以为 k-means 聚类开发哪些删除高效的策略，它们的理论保证是什么？
RQ4在多样化数据集上，删除高效方法在速度和聚类质量方面的经验表现如何？
RQ5为设计删除高效的 ML 系统涌现出哪些通用工程原则？

主要发现

删除高效的 k-means 变体在平均摊销运行时间上相对于使用 k-means++ 初始化的标准 Lloyd 算法实现了显著加速（平均超过 100x）。
Q-kmeans 在通过质心量化与状态记忆实现快速删除的同时保持竞争的聚类质量；其删除时间在期望意义下为 O(m^2 d^{5/2}/epsilon)。
DC-kmeans 提供另一种使用深度为 1 的 w 叉树的删除策略，在参数选取合适时，其期望删除时间为 O(m max{n^{rho}, n^{1−rho}} d)。
在六个数据集上，两种方法在关键指标（损失、轮廓系数、NMI）上与基线统计上可比，同时显著降低了删除成本。
作者建立了摊销删除效率界限：Q-kmeans 对 alpha <= (1 - beta)/2 时为 alpha-删除高效，且 epsilon ~ n^{-beta}；DC-kmeans 对 alpha < 1 - max{1 - rho, rho} 时为 alpha-删除高效，且树宽 w ~ n^{rho}。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。