[论文解读] Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models
通过对作者特定内容的微调,在前沿大型语言模型中开启对受版权保护书籍的逐字记忆能力,促进跨作者记忆并引发安全性与版权方面的担忧。该效应在多种模型上持续存在,且由预训练重叠而非任务格式驱动。
Frontier LLM companies have repeatedly assured courts and regulators that their models do not store copies of training data. They further rely on safety alignment strategies via RLHF, system prompts, and output filters to block verbatim regurgitation of copyrighted works, and have cited the efficacy of these measures in their legal defenses against copyright infringement claims. We show that finetuning bypasses these protections: by training models to expand plot summaries into full text, a task naturally suited for commercial writing assistants, we cause GPT-4o, Gemini-2.5-Pro, and DeepSeek-V3.1 to reproduce up to 85-90% of held-out copyrighted books, with single verbatim spans exceeding 460 words, using only semantic descriptions as prompts and no actual book text. This extraction generalizes across authors: finetuning exclusively on Haruki Murakami's novels unlocks verbatim recall of copyrighted books from over 30 unrelated authors. The effect is not specific to any training author or corpus: random author pairs and public-domain finetuning data produce comparable extraction, while finetuning on synthetic text yields near-zero extraction, indicating that finetuning on individual authors' works reactivates latent memorization from pretraining. Three models from different providers memorize the same books in the same regions ($r \ge 0.90$), pointing to an industry-wide vulnerability. Our findings offer compelling evidence that model weights store copies of copyrighted works and that the security failures that manifest after finetuning on individual authors' works undermine a key premise of recent fair use rulings, where courts have conditioned favorable outcomes on the adequacy of measures preventing reproduction of protected expression.
研究动机与目标
- 研究在特定作者作品上的微调是否会在前沿LLMs中激活对受版权保护书籍的逐字记忆。
- 评估跨作者的一般化以及该效应是否在非版权或合成微调数据下仍然存在。
- 考察记忆是否来自于预训练数据的重叠而非微调任务格式。
- 探索模型与提供商层面的记忆模式,以评估行业的脆弱性。
- 讨论在部署模型中的逐字记忆的法律与安全含义。
提出的方法
- 对GPT-4o、Gemini-2.5-Pro和DeepSeek-V3.1进行微调,涵盖47位作者、跨多种体裁的81本测试书。
- 使用书籍记忆覆盖率(bmc@k)与最长逐字片段,对留出书籍进行记忆评估。
- 以语义情节摘要而非实际书本文字来提示微调模型,以诱发记忆中的逐字回忆。
- 在三种模型中比较同作者与跨作者微调设置。
- 在公有领域的弗吉尼亚·伍尔夫作品和合成数据上测试微调,以评估预训练数据重叠与任务格式的作用。
- 分析跨段落片段与跨模型的一致性,以刻画记忆模式。
- 通过将提取片段与大型预训练语料库及盗版书籍库进行对比,来核查来源。

实验结果
研究问题
- RQ1在某位作者的作品上进行微调,是否会触发同一作者未见书籍的逐字提取?
- RQ2在一个作者上进行微调,是否会使对无关作者的受版权内容产生记忆(跨作者泛化)?
- RQ3观察到的提取是否由预训练数据重叠驱动,而非微调任务格式?
- RQ4不同的模型提供商是否记忆到高度相似的内容,暴露行业层面的脆弱性?
- RQ5在部署模型中,逐字记忆的法律与安全含义是什么?
主要发现
- 对齐指令微调的模型显示出极少的逐字记忆(平均bmc@5约7.36%)。
- 在同作者内微调显著提高了GPT-4o、Gemini-2.5-Pro和DeepSeek-V3.1的记忆能力,多本书的bmc@5超过40%。
- 跨作者微调(如村上春树训练)使在未见作者身上的提取显著增加,各条件下书内相关性r≥0.92。
- 对公有领域的弗吉尼亚·伍尔夫进行微调,提取与受版权保护跨作者条件相当,而合成数据几乎无提取,表明预训练数据重叠为驱动因素。
- 在不同模型间,记忆模式高度一致,书内提取率强相关(r≥0.90),单词级Jaccard相似度在自我一致性天花板的90–97%之间。
- 这些结果表明前沿模型在权重中存储书籍副本,且当前的安全对齐并未阻止经过定向微调后的大规模逐字回忆。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。