[论文解读] Emergent and Predictable Memorization in Large Language Models
本论文研究使用低成本、较小规模或部分训练跑步来预测大型语言模型是否会记忆特定数据,并分析缩放规律以指导等效计算的预测;结果显示较小模型对更大模型的记忆预测能力较差,并给出对可可靠预测的缩放规律洞察。
Memorization, or the tendency of large language models (LLMs) to output entire sequences from their training data verbatim, is a key concern for safely deploying language models. In particular, it is vital to minimize a model's memorization of sensitive datapoints such as those containing personal identifiable information (PII). The prevalence of such undesirable memorization can pose issues for model trainers, and may even require discarding an otherwise functional model. We therefore seek to predict which sequences will be memorized before a large model's full train-time by extrapolating the memorization behavior of lower-compute trial runs. We measure memorization of the Pythia model suite and plot scaling laws for forecasting memorization, allowing us to provide equi-compute recommendations to maximize the reliability (recall) of such predictions. We additionally provide further novel discoveries on the distribution of memorization scores across models and data. We release all code and data necessary to reproduce the results in this paper at https://github.com/EleutherAI/pythia
研究动机与目标
- 通过预测大型LLM可能记住的训练数据点来推动安全部署。
- 开发使用低成本的预训练方案(较小或部分训练的模型)来预估记忆性的方法。
- 评估此类预测的可靠性并在训练预算下给出等效计算的建议。
- 分析记忆性如何随模型规模和训练进展而缩放,以识别新兴模式。
提出的方法
- 将 k-extractibility 定义为记忆性的度量,并基于贪婪生成的续写来使用记忆分数。
- 在多个规模的 Pythia 基模型套件和七个训练检查点上评估记忆性。
- 将较小模型的记忆性视为对较大模型记忆性的预测并计算准确率/召回率指标。
- 比较完全训练的小模型预测与完全训练的大模型,以评估跨尺度的预测能力。
- 在同一最终模型大小下评估部分训练的检查点以预测最终的记忆行为。
- 绘制缩放关系并在等效计算约束下分析出现的记忆性现象。

实验结果
研究问题
- RQ1是否可以从较小模型的记忆行为预测大型语言模型对特定序列的记忆性?
- RQ2是否可以从同一最终模型大小的部分训练检查点来预测大型模型的记忆性?
- RQ3在跨越模型规模和训练预算进行记忆性预测时,会出现哪些缩放模式?
- RQ4在使用来自低成本跑的预测信号时,精确度/召回率的权衡如何?
主要发现
| 模型 | Precision | Recall | Notes |
|---|---|---|---|
| Pythia-70M | 0.956 | 0.197 | Fully trained 12B predictor comparison |
| Pythia-160M | 0.948 | 0.289 | Fully trained 12B predictor comparison |
| Pythia-410M | 0.940 | 0.401 | Fully trained 12B predictor comparison |
| Pythia-1.0B | 0.931 | 0.512 | Fully trained 12B predictor comparison |
| Pythia-1.4B | 0.926 | 0.554 | Fully trained 12B predictor comparison |
| Pythia-2.8B | 0.909 | 0.658 | Fully trained 12B predictor comparison |
| Pythia-6.9B | 0.884 | 0.795 | Fully trained 12B predictor comparison |
- 较小模型(降至 7000 万参数)对预测 12B 模型记忆性的精确度很高,但召回率很低,作为预测者不可靠。
- 随着模型规模差距增大,跨模型的相关性下降,难以从较小模型预测最终记忆性。
- 从部分训练检查点预测记忆性可获得高精度,但在召回率变得可靠之前需要大量计算。
- 观察到非同寻常的缩放行为;在同等计算下,哪一个规模是最佳预测者会随预算变化而改变。
- 出现了质性的新兴记忆现象,表明大型模型的记忆性不能总是从较小模型的行为推断。
- 作者提出一种基于缩放定律的策略,以识别在保持计算量上限的前提下最大化召回率的最优等效计算预测器。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。