Skip to main content
QUICK REVIEW

[論文レビュー] Language Generation with Replay: A Learning-Theoretic View of Model Collapse

Giorgio Racca, Michael Valko|arXiv (Cornell University)|Mar 12, 2026
Topic Modeling被引用数 0
ひとこと要約

要約: 論文はリプレイ adversary を言語生成の limit フレームワークに導入し、ジェネレータの過去出力が将来の訓練ストリームに再入力されるとモデル崩壊を引き起こす可能性をモデル化し、uniform, non-uniform, limit, proper generation の概念においてリプレイが生成可能性を保つか害するかを特徴づける。

ABSTRACT

As scaling laws push the training of frontier large language models (LLMs) toward ever-growing data requirements, training pipelines are approaching a regime where much of the publicly available online text may be consumed. At the same time, widespread LLM usage increases the volume of machine-generated content on the web; together, these trends raise the likelihood of generated text re-entering future training corpora, increasing the associated risk of performance degradation often called model collapse. In practice, model developers address this concern through data cleaning, watermarking, synthetic-data policies, or, in some cases, blissful ignorance. However, the problem of model collapse in generative models has not been examined from a learning-theoretic perspective: we study it through the theoretical lens of the language generation in the limit framework, introducing a replay adversary that augments the example stream with the generator's own past outputs. Our main contribution is a fine-grained learning-theoretic characterization of when replay fundamentally limits generation: while replay is benign for the strongest notion of uniform generation, it provably creates separations for the weaker notions of non-uniform generation and generation in the limit. Interestingly, our positive results mirror heuristics widely used in practice, such as data cleaning, watermarking, and output filtering, while our separations show when these ideas can fail.

研究の動機と目的

  • synthetic outputs が再入力データとして現れるときのモデル崩壊リスクを動機づけ formalize する。
  • フィードバックループを捕捉するための replay variant の language generation game を導入する。
  • リプレイ下での generation notions(uniform, non-uniform, in the limit, proper)に対する細粒度の学習理論的特徴付けを提供する。
  • 標準的な保証との等価性・分離を示し、データクリーニングやセーフガードの意味を提案する。

提案手法

  • generator G と過去出力の replay sequence を用いた replayed language generation game を定義する。
  • リプレイ付きの uniform generation を分析し、標準の uniform generation との同値性を証明する(定理 3.1)。
  • リプレイ付きの non-uniform generation における分離を示し、可算集合の排他性を示す(定理 4.1)。
  • リプレイ付きの limit における generation を研究し、所属クラスの membership queries を用いた肯定的な結果(定理 5.1)と、非可算クラスでの分離(定理 5.6)を示す。
  • リプレイ付きの proper generation を検討し、リプレイが保証を劣化させる有限クラスの分離を示す(定理 6.3)。
  • 計算的含意と、membership queries を超えるより強力な原語 primitive の必要性を示す(定理 6.1)。

実験結果

リサーチクエスチョン

  • RQ1再入力された自身の過去出力で訓練される generator が、標準設定と比べて言語生成を本質的に強化するのか。
  • RQ2各 generation notion(uniform, non-uniform, in the limit, proper)において、リプレイは標準保証を保つのか、あるいは分離するのか。
  • RQ3limit におけるリプレイ付き generation は、最小アクセス(membership queries)で可算クラスに対して実現可能か、また非可算クラスには分離があるのか。
  • RQ4リプレイ付き limit における proper generation を達成するために必要な計算 primitive は何か。
  • RQ5データクリーニングやセーフガード戦略は、リプレイの下で理論結果とどのように相互作用するのか。

主な発見

  • リプレイ付きの uniform generation は標準的な uniform generation と等価で、同じ保証とサンプル複雑性を持つ。
  • リプレイ付きの non-uniform generation は、ある可算クラスに対して失敗する可能性があり、標準設定ではすべての可算クラスが生成可能であるのとは異なる。
  • リプレイ付き limit generation は、membership queries を用いることで可算クラスに対して依然として実現可能で、標準的保証をこの領域で保持する。
  • リプレイなしでは生成可能だがリプレイありでは生成不能な不可算クラスが存在し、根本的な分離を示す。
  • リプレイ付き limit で生成可能な有限クラスが存在する一方で、proper generation の標準設定では不可能な場合があり、リプレイが一部領域において力を厳しく低下させ得ることを示す。
  • リプレイ付き limit の proper generation は、標準設定で用いられた Kleinberg および Mullainathan (2024) の範囲を超える、membership queries より強力な計算 primitive を必要とする可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。