Skip to main content
QUICK REVIEW

[论文解读] The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks

Nicholas Carlini, Chang Liu|arXiv (Cornell University)|Feb 22, 2018
Privacy-Preserving Technologies in Data被引用 504
一句话总结

本文提出一种基于暴露度的测试方法,用于量化并限制神经网络序列模型对稀有或秘密训练数据的未明确记忆,并在现实系统如 Google Smart Compose 上验证其实用性。

ABSTRACT

This paper describes a testing methodology for quantitatively assessing the risk that rare or unique training-data sequences are unintentionally memorized by generative sequence models---a common type of machine-learning model. Because such models are sometimes trained on sensitive data (e.g., the text of users' private messages), this methodology can benefit privacy by allowing deep-learning practitioners to select means of training that minimize such memorization. In experiments, we show that unintended memorization is a persistent, hard-to-avoid issue that can have serious consequences. Specifically, for models trained without consideration of memorization, we describe new, efficient procedures that can extract unique, secret sequences, such as credit card numbers. We show that our testing strategy is a practical and easy-to-use first line of defense, e.g., by describing its application to quantitatively limit data exposure in Google's Smart Compose, a commercial text-completion neural network trained on millions of users' email messages.

研究动机与目标

  • 开发定量的基于暴露度的度量,用于评估生成式序列模型对稀有或秘密训练数据的记忆。
  • 提供实际可行的测试方法,在训练数据中插入 canary,并衡量其在训练后模型中的暴露程度。
  • 在真实世界系统(如 Google 的 Smart Compose)上演示该方法,以指导隐私保护训练决策。
  • 研究记忆在不同模型和训练方案中的产生方式,并评估简单防御与差分隐私之间的权衡。

提出的方法

  • 将对数困惑度定义为序列似然度量,并比较插入的 canaries 与随机序列的困惑度。
  • 引入一个暴露度度量,该度量来自模型困惑度分布中 canaries 的排序(或猜测熵)。
  • 将基于格式的 canaries 插入训练数据,在相同设置下训练模型以测量记忆效应。
  • 通过抽样或分布建模(如偏斜正态分布)高效近似暴露度,以估计基于排名的暴露。
  • 提供一个实际的测试流程:用 canary 增强数据、训练,并报告暴露曲线,作为 canary 插入频率的函数。
  • 将该方法应用于大规模生产模型(Smart Compose),以验证效用与隐私权衡。

实验结果

研究问题

  • RQ1神经网络是否会记住插入其训练数据中稀少出现的秘密,并以暴露度度量来衡量?
  • RQ2记忆随训练方案、模型规模和数据分布的变化而如何变化,是否可在不过度损失效用的情况下进行缓解?
  • RQ3简单的正则化(早停、丢弃)是否足以防止无意记忆,还是需要隐私保护训练方法?
  • RQ4在实际应用中,差分隐私在消除记忆方面相对于其他防御有多有效?

主要发现

  • 对稀有或秘密训练数据的无意记忆很普遍,并在不同模型和训练策略中持续存在,即使数据非常稀少。
  • 基于暴露度的测试策略能够量化记忆,并揭示在相同准确度条件下不同训练方法的差异。
  • 插入训练数据中的 canaries 可以被训练模型在黑盒查询模型下高效提取或高度暴露。
  • 早停和丢弃不足以防止无意记忆;差分隐私训练可以消除记忆,但会带来效用成本。
  • 应用于 Google 的 Smart Compose,暴露度度量引导了隐私考虑,并展示了限制数据暴露的实际相关性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。