[论文解读] Deduplicating Training Data Mitigates Privacy Risks in Language Models
论文表明网页抓取训练数据中的重复会驱动记忆化和隐私攻击的成功;对数据进行去重可显著降低泄漏,而不损害语言建模性能。
Past work has shown that large language models are susceptible to privacy attacks, where adversaries generate sequences from a trained model and detect which sequences are memorized from the training set. In this work, we show that the success of these attacks is largely due to duplication in commonly used web-scraped training sets. We first show that the rate at which language models regenerate training sequences is superlinearly related to a sequence's count in the training set. For instance, a sequence that is present 10 times in the training data is on average generated ~1000 times more often than a sequence that is present only once. We next show that existing methods for detecting memorized sequences have near-chance accuracy on non-duplicated training sequences. Finally, we find that after applying methods to deduplicate training data, language models are considerably more secure against these types of privacy attacks. Taken together, our results motivate an increased focus on deduplication in privacy-sensitive applications and a reevaluation of the practicality of existing privacy attacks.
研究动机与目标
- 识别训练数据中完全重复序列如何影响语言模型生成训练样本。
- 在不同数据重复水平下评估成员身份推断攻击的有效性。
- 评估去重训练数据是否在不损害模型性能的前提下降低隐私风险。
提出的方法
- 衡量训练序列的再生成率,作为其在训练数据中的重复次数的函数。
- 将基于后缀数组的 ExactSubstr 去重方法改造成检测严格重复项。
- 在不同重复设置下评估 Carlini 等人风格的模型反演攻击和成员推断分数。
- 在去重数据上重新训练模型,并比较泄漏和成员推断方法的 AUROC。
- 提供结果表,显示普通模型与去重模型的泄漏和 AUROC。
实验结果
研究问题
- RQ1训练序列的重复次数如何影响其被语言模型再生成的可能性?
- RQ2在不同重复水平下,成员推断方法检测记忆序列的有效性如何?
- RQ3去重训练数据是否能在不降低语言模型性能的情况下显著降低隐私风险?
主要发现
| 指标 | 原始模型 | 去重模型 |
|---|---|---|
| 训练数据生成计数 | 1,427,212 | 68,090 |
| 百分比 | 0.14 | 0.007 |
| 记忆推断 AUROC (zlib) | 0.76 | 0.67 |
| 记忆推断 AUROC (Ref Model) | 0.88 | 0.87 |
| 记忆推断 AUROC (Lowercase) | 0.86 | 0.68 |
- 再生成与训练序列重复次数呈超线性关系;重复10次的序列被再生成的频率大约比仅重复一次高出约1000倍。
- 记忆检测方法在非重复序列上的表现接近随机猜测,且其有效性随重复水平增加而提高。
- 去重的训练数据导致模型输出的训练数据量减少约20倍,并在大多数重复情况下降低成员推断方法的 AUROC;困惑度保持不变。
- 当去重模型确有再生成训练数据时,成员推断仍能检测到部分泄漏,特别是参考模型分数时。
- 总体而言,去重是对抗模型反演攻击的有效防御,且对模型性能影响极小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。