Skip to main content
QUICK REVIEW

[论文解读] Extracting Training Data from Large Language Models

Nicholas Carlini, Florian Tramèr|arXiv (Cornell University)|Dec 14, 2020
Privacy-Preserving Technologies in Data参考文献 61被引用 274
一句话总结

本文展示了对 GPT-2 的黑箱训练数据提取攻击,恢复了数百个逐字训练示例并揭示敏感信息,并分析了影响记忆的因素及缓解建议。

ABSTRACT

It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. Worryingly, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.

研究动机与目标

  • 仅使用黑箱访问演示针对大型语言模型的实际训练数据提取攻击。
  • 量化在公开获取数据训练的 GPT-2 上记忆的范围和性质。
  • 识别影响记忆与泄漏的因素(模型规模、数据频率)。
  • 提出缓解措施并讨论隐私保护训练方法及其权衡。

提出的方法

  • 使用各种采样策略从目标语言模型生成大量高似然样本。
  • 基于对照模型的多种成员推断指标对可能的记忆序列进行排序和筛选。
  • 通过与模型作者合作,对照模型的训练数据验证记忆输出。
  • 系统性地改变模型规模、采样配置和数据特征以研究记忆行为。
  • 分析字符串频次、模型规模和攻击配置对提取成功的影响。
  • 讨论实际缓解措施,包括差分隐私、数据去重等策略。

实验结果

研究问题

  • RQ1在黑箱访问条件下,大型语言模型在多大程度上记忆并逐字泄漏训练数据?
  • RQ2哪些因素(模型规模、数据频率、采样方法)影响记忆与提取成功?
  • RQ3不同攻击配置和成员推断指标在识别记忆内容方面有多有效?
  • RQ4哪些缓解措施可以在不严重损害模型效用的情况下减少记忆?
  • RQ5所观察到的记忆现象是否有可能推广到 GPT-2 以外的模型?

主要发现

  • 攻击者可以使用黑箱查询从 GPT-2 提取数百个逐字的训练序列。
  • 在最佳配置中,候选样本的 67% 是逐字训练示例。
  • 记忆内容可包括姓名、电子邮件、电话号码、IRC 对话、代码和 128 位 UUID。
  • 在 GPT-2 家族中,较大的模型对记忆的易感性高于较小的模型。
  • 评估了两打攻击策略(采样、温度衰减、互联网前缀条件、多种推断指标)以揭示稳健的提取模式。
  • 如差分隐私和谨慎的数据去重等缓解措施有帮助,但不能完全防止泄漏。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。