[論文レビュー] Extracting books from production language models
The paper presents a two-phase procedure to test and perform long-form extraction of memorized copyrighted books from four production LLMs, showing variable success across models and configurations. It introduces nv-recall as a long-form extraction metric and discusses safeguards and legal implications.
Many unresolved legal questions over LLMs and copyright center on memorization: whether specific training data have been encoded in the model's weights during training, and whether those memorized data can be extracted in the model's outputs. While many believe that LLMs do not memorize much of their training data, recent work shows that substantial amounts of copyrighted text can be extracted from open-weight models. However, it remains an open question if similar extraction is feasible for production LLMs, given the safety measures these systems implement. We investigate this question using a two-phase procedure: (1) an initial probe to test for extraction feasibility, which sometimes uses a Best-of-N (BoN) jailbreak, followed by (2) iterative continuation prompts to attempt to extract the book. We evaluate our procedure on four production LLMs -- Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3 -- and we measure extraction success with a score computed from a block-based approximation of longest common substring (nv-recall). With different per-LLM experimental configurations, we were able to extract varying amounts of text. For the Phase 1 probe, it was unnecessary to jailbreak Gemini 2.5 Pro and Grok 3 to extract text (e.g, nv-recall of 76.8% and 70.3%, respectively, for Harry Potter and the Sorcerer's Stone), while it was necessary for Claude 3.7 Sonnet and GPT-4.1. In some cases, jailbroken Claude 3.7 Sonnet outputs entire books near-verbatim (e.g., nv-recall=95.8%). GPT-4.1 requires significantly more BoN attempts (e.g., 20X), and eventually refuses to continue (e.g., nv-recall=4.0%). Taken together, our work highlights that, even with model- and system-level safeguards, extraction of (in-copyright) training data remains a risk for production LLMs.
研究の動機と目的
- production LLMs が記憶しており、著作権で保護された書籍を逐語的に再現できるかを評価する。
- ブラックボックスAPIと生産上のセーフガードに適合する2段階の抽出手順を開発する。
- 長文のほぼ逐語的な長文抽出指標を提案する。
- 複数の生産LLMと設定にまたがる抽出の成功を定量化する。
- 記憶と抽出に関連する法的・安全対策の影響を検討する。
提案手法
- Phase 1 では、書籍の短いグラウンドトゥルースプレフィックスをモデルに完了させるよう促すことで実現可能性を探る。
- Phase 1 は一部のモデルでセーフガードを回避するために Best-of-N ジailbreak を用いることがある。
- Phase 2 では Phase 1 が成功した場合、より長いテキストの継続を反復的に要求して抽出を拡張する。
- Extraction の成功は nv-recall により評価される。これは longest common substring のブロックベース近似である。
- Generation の設定(temperature、max length、ペナルティ)は、抽出を最大化するために LLM ごとに変更される。
- Extraction の検証は、Near-verbatim ブロックを特定するための保守的な長域マッチングアルゴリズムを用いる。
実験結果
リサーチクエスチョン
- RQ1 生産LLM は、管理されたプロンプトとセーフガードの下で memorized long-form copyrighted text を再現できるか。
- RQ2 Phase-1 のプロービングと Phase-2 の継続において、抽出の実現性は生産LLMごとにどう異なるか。
- RQ3 さまざまな設定で生産LLM から到達可能なNear-verbatim長文抽出の程度はどの程度か。
- RQ4 生成長文の Near-verbatim 抽出を信頼性高く測定するにはどうすればよいか。
主な発見
- 抽出された memorized copyrighted material の substantial portions は、テスト対象の4つの生産LLMすべてから可能である。
- Claude 3.7 Sonnet では Phase 1 jailbreak と Phase 2 prompts により Harry Potter で nv-recall が 95.8% に達し得る。
- GPT-4.1 は substantially more Best-of-N の試行を要し、継続を拒否する場合があり、提供設定では nv-recall が 4.0% まで低下する。
- Gemini 2.5 Pro と Grok 3 は jailbreak なしでそれぞれ 76.8%、70.3% の nv-recall を抽出できる。
- 試験対象の 11 冊の著作権内の書籍では、多くの実験で nv-recall が ≤ 10% となる一方、モデルと設定次第で非常に高いリコールを示した書籍もあった。
- 本研究はセーフガードにもかかわらず生産LLM に対する抽出リスクが持続することを強調し、政策・法的含意を論じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。