[論文レビュー] Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models
著者固有のコンテンツでのファインチューニングは frontier LLMs における著作権で保護された書籍の字句記憶の大幅な解放を引き起こし、作家間の記憶化を可能にし、安全性と著作権の懸念を高める。効果は複数のモデルにわたって持続し、タスク形式よりも事前学習の重なり合いによって推進される。
Frontier LLM companies have repeatedly assured courts and regulators that their models do not store copies of training data. They further rely on safety alignment strategies via RLHF, system prompts, and output filters to block verbatim regurgitation of copyrighted works, and have cited the efficacy of these measures in their legal defenses against copyright infringement claims. We show that finetuning bypasses these protections: by training models to expand plot summaries into full text, a task naturally suited for commercial writing assistants, we cause GPT-4o, Gemini-2.5-Pro, and DeepSeek-V3.1 to reproduce up to 85-90% of held-out copyrighted books, with single verbatim spans exceeding 460 words, using only semantic descriptions as prompts and no actual book text. This extraction generalizes across authors: finetuning exclusively on Haruki Murakami's novels unlocks verbatim recall of copyrighted books from over 30 unrelated authors. The effect is not specific to any training author or corpus: random author pairs and public-domain finetuning data produce comparable extraction, while finetuning on synthetic text yields near-zero extraction, indicating that finetuning on individual authors' works reactivates latent memorization from pretraining. Three models from different providers memorize the same books in the same regions ($r \ge 0.90$), pointing to an industry-wide vulnerability. Our findings offer compelling evidence that model weights store copies of copyrighted works and that the security failures that manifest after finetuning on individual authors' works undermine a key premise of recent fair use rulings, where courts have conditioned favorable outcomes on the adequacy of measures preventing reproduction of protected expression.
研究の動機と目的
- 特定の作家の作品でのファインチューニングが frontier LLMs における著作権で保護された書籍の字句記憶を活性化するかを調査する。
- クロス作家一般化を評価し、非著作権保護または合成ファインチューニングデータで効果が持続するかを評価する。
- 記憶が事前学習データの重複性またはファインチューニングのタスク形式に起因するかを検討する。
- モデル提供者全体のパターンを分析して業界全体の脆弱性を評価する。
- 展開モデルにおける字句記憶の法的および安全性への影響を議論する。
提案手法
- 47 著者からの 81 冊のテスト本(複数ジャンルをまたぐ)で GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1 をファインチューニングする。
- ブック・メモリ化カバレッジ(bmc@k)と最長の字句連続を用いて held-out 本での記憶化を評価する。
- 実際の書籍テキストではなく意味的なあらすじを提示して、記憶からの字句記憶を喚起する。
- 同一作家内と他作家間のファインチューニング設定を三モデルで比較する。
- 公領 Virginia Woolf の作品と合成データでファインチューニングを試して、事前学習データの重複とタスク形式の役割を評価する。
- パラグラフ間の連続とモデル間の一致を分析して記憶化パターンを特徴づける。
- 抽出された連続部分を大規模な事前学習コーパスや海賊版リポジトリと比較して出所を検証する。

実験結果
リサーチクエスチョン
- RQ1作家の作品でのファインチューニングは、同じ作者の保留本からの字句抽出を引き起こすか?
- RQ2一人の作家に対するファインチューニングは、無関係な他の作者の著作権で保護された内容の記憶化(クロス作家一般化)を可能にするか?
- RQ3観測された抽出は、ファインチューニングのタスク形式よりも事前学習データの重複性に起因するのか?
- RQ4異なるモデル提供者は著しく類似した内容を記憶しており、業界全体の脆弱性を露呈しているか?
- RQ5展開モデルにおける字句記憶の法的・安全性への影響は何か?
主な発見
- 指示合わせ済みのモデルは字句記憶を最小限に留める(平均 bmc@5 は約 7.36%)。
- 同一作家内でのファインチューニングは GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1 の記憶化を劇的に高め、複数の本で bmc@5 が 40% を超える。
- クロス作者のファインチューニング(例:村上春樹の訓練)は unseen 作者からの substantial な抽出を可能にし、条件をまたいで本ごとの相関 r≥0.92。
- 公領 Virginia Woolf でのファインチューニングは著作権で保護されたクロス作者条件に匹敵する抽出を生み出し、合成データはほぼ抽出なしとなり、事前学習データの重複が原因であることを示唆。
- モデル間で記憶パターンが高度に一致し、各本の抽出率は強く相関(r≥0.90)、語彙レベルのジャカード類似度は自己同意上限の 90–97%。
- これらの結果は、 frontier モデルが書籍のコピーを重みとして保持しており、現在の安全性整合化は targeted ファインチューニング 後の大規模な字句記憶再現を防止していないことを示唆。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。