QUICK REVIEW

[论文解读] Scalable Extraction of Training Data from (Production) Language Models

Milad Nasr, Nicholas Carlini|arXiv (Cornell University)|Nov 28, 2023

Adversarial Robustness in Machine Learning被引用 79

一句话总结

该论文分析大型语言模型中的可提取记忆，并证明对开放、半开放和生产模型中可从训练数据中提取出大量信息的可能性，包括对 ChatGPT 的一种新的发散攻击，可增加数据泄露。

ABSTRACT

This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model without prior knowledge of the training dataset. We show an adversary can extract gigabytes of training data from open-source language models like Pythia or GPT-Neo, semi-open models like LLaMA or Falcon, and closed models like ChatGPT. Existing techniques from the literature suffice to attack unaligned models; in order to attack the aligned ChatGPT, we develop a new divergence attack that causes the model to diverge from its chatbot-style generations and emit training data at a rate 150x higher than when behaving properly. Our methods show practical attacks can recover far more data than previously thought, and reveal that current alignment techniques do not eliminate memorization.

研究动机与目标

量化在一系列开放、半开放和生产级语言模型中的可提取记忆。
开发可扩展的方法学，在数万亿标记中检测记忆化数据。
评估对齐/对齐技术在减缓记忆化方面的有效性。
为半封闭模型中的记忆化数据提供真实可信的验证方法。
就部署中的大型语言模型的隐私与数据安全提出影响与建议。

提出的方法

将可提取记忆定义为导致模型输出训练数据的逐字提示。
使用基于后缀数组的查找来高效测试生成序列是否出现在训练数据中（针对开放模型）。
为每个模型生成10亿个标记，并测量记忆输出和唯一的50-token序列。
使用 Good-Turing 估计和基于排名的记忆输出可视化来外推总记忆量。
对于半封闭模型，从公开语料库构建 AuxDataset（约9 TB），并使用32个后缀数组分片对输出进行测试。
对于 ChatGPT，开发提示发散策略以绕过对齐并诱导出基模型风格的生成以揭示记忆数据。

实验结果

研究问题

RQ1从开放、半开放和生产级的 LLMs 中可提取的记忆化训练数据有多少（逐字）？
RQ2模型规模、训练时长和对齐如何影响记忆化和可提取性？
RQ3现有的提取方法能否扩展到数万亿标记和大规模模型家族？
RQ4在训练数据不可公开访问时，哪些验证策略可以稳健地证明记忆化？
RQ5部署的对话模型如 ChatGPT 的隐私影响有哪些？

主要发现

开放模型显示 0.1% 至 1% 的记忆化标记，针对每个被研究的模型，唯一的50-token记忆序列为 365k–2.9M。
总的可提取记忆量随生成次数增加而增长，Good-Turing 外推表明较大模型具有可观的记忆化程度。
GPT-Neo 6B、Pythia 6.9B 等同类规模的模型表现出比小型模型更高的唯一记忆序列数量和更高的外推计数。
半封闭模型（如 LLaMA、Falcon、GPT-2）显示出不可忽略的记忆化；外推的50-gram 记忆序列数量范围大约为 ~38k–16.7M，取决于模型及规模。
ChatGPT（gpt-3.5-turbo）在使用发散提示时并非对泄漏完全免疫；通过自动化网页爬取得到的外推 50-gram 为 1,789,254，针对 GPT-3.5-instruct，表明对齐并不能完全消除记忆化。
研究强调了可发现记忆化与可提取记忆化之间的显著差距，存在大量未被发现的记忆化数据。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。