Skip to main content
QUICK REVIEW

[论文解读] Machine Learning Models that Remember Too Much

Congzheng Song, Thomas Ristenpart|arXiv (Cornell University)|Sep 22, 2017
Adversarial Robustness in Machine Learning参考文献 57被引用 31
一句话总结

本文表明,恶意的机器学习提供商可以通过对训练过程进行细微修改,在模型看似准确且具备泛化能力的同时,秘密地编码并泄露敏感的训练数据。即使仅拥有黑盒访问权限,攻击者也能通过利用模型对合成带标签数据的过拟合,提取出大量训练数据,揭示了机器学习即服务(MLaaS)管道中的关键隐私风险。

ABSTRACT

Machine learning (ML) is becoming a commodity. Numerous ML frameworks and services are available to data holders who are not ML experts but want to train predictive models on their data. It is important that ML models trained on sensitive inputs (e.g., personal images or documents) not leak too much information about the training data. We consider a malicious ML provider who supplies model-training code to the data holder, does not observe the training, but then obtains white- or black-box access to the resulting model. In this setting, we design and implement practical algorithms, some of them very similar to standard ML techniques such as regularization and data augmentation, that "memorize" information about the training dataset in the model yet the model is as accurate and predictive as a conventionally trained model. We then explain how the adversary can extract memorized information from the model. We evaluate our techniques on standard ML tasks for image classification (CIFAR10), face recognition (LFW and FaceScrub), and text analysis (20 Newsgroups and IMDB). In all cases, we show how our algorithms create models that have high predictive power yet allow accurate extraction of subsets of their training data.

研究动机与目标

  • 调查恶意机器学习提供商如何在不降低预测性能的前提下,将敏感训练数据嵌入模型中。
  • 证明通过细微且看似合法的修改进行训练的模型,仍可能泄露其训练数据的大量信息。
  • 展示白盒和黑盒攻击者均可使用实用且隐蔽的技术提取出记忆的训练数据。
  • 强调在用户信任未经验证训练代码的机器学习即服务和第三方机器学习框架中,存在的隐私风险。
  • 倡导在机器学习训练中采用最小权限原则,确保模型仅学习严格必要的内容。

提出的方法

  • 作者提出一种容量滥用攻击,通过在训练数据中加入带有真实训练数据中秘密比特的合成输入,迫使模型记忆这些信息。
  • 在白盒环境下,他们将秘密直接嵌入模型参数的最低有效位,或使用正则化方法使参数与敏感数据相关联。
  • 在黑盒提取场景中,他们依赖模型对带有秘密标签的合成输入的过拟合,通过输入-输出查询实现数据重建。
  • 该方法以恶意方式使用标准机器学习技术(如正则化和数据增强),使其与良性训练难以区分。
  • 该方法在多个基准数据集上进行了评估,包括 CIFAR10、LFW、FaceScrub、20 Newsgroups 和 IMDB,结果显示主任务准确率无下降。
  • 通过向模型查询合成输入并观察输出标签来执行数据提取,从而揭示嵌入的秘密。

实验结果

研究问题

  • RQ1恶意机器学习提供商能否在保持高准确率的同时,训练出嵌入并泄露敏感训练数据的模型?
  • RQ2在仅通过黑盒访问由合成带秘密标签数据训练的模型时,攻击者能多大程度上提取出训练数据?
  • RQ3当被恶意操控时,正则化和数据增强等标准机器学习技术如何成为数据外泄的载体?
  • RQ4在使用容量滥用技术训练的模型中,模型效用与数据泄露之间的权衡如何?
  • RQ5模型压缩或隐私保护技术能否缓解此类隐蔽的数据泄露?

主要发现

  • 作者成功构建了一个文本分类器,其10,000篇文档的训练语料中有70%被泄露,且未影响模型准确率。
  • 在黑盒环境下,二分类性别分类器能够通过向带有嵌入标签的合成输入发起查询,准确重建秘密训练数据。
  • 使用合成数据增强和秘密标签训练的模型在主任务上达到近乎完美的准确率,同时对合成输入产生过拟合,从而实现数据提取。
  • 在白盒攻击中,通过最低有效位编码技术,即使模型在其他方面与良性模型无法区分,也能从模型参数中精确重建训练数据。
  • 恶意训练技术对数据持有者不可检测,因为其模仿了正则化和数据增强等标准机器学习实践。
  • 结果表明,即使具备强大的泛化能力和高准确率,若训练过程存在恶意意图,模型仍可能泄露敏感信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。