Skip to main content
QUICK REVIEW

[論文レビュー] Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data

Matthias Gerstgrasser, Rylan Schaeffer|arXiv (Cornell University)|Apr 1, 2024
Semantic Web and Ontologies被引用数 12
ひとこと要約

論文は、実データとともに累積的な合成データで訓練することで、モデル崩壊を回避できることを経験的に言語、拡散、画像モデルで示し、線形回帰フレームワークでは理論的にも示している。データを置換すると無限に劣化する一方、累積は誤差を有界にする。

ABSTRACT

The proliferation of generative models, combined with pretraining on web-scale data, raises a timely question: what happens when these models are trained on their own generated outputs? Recent investigations into model-data feedback loops proposed that such loops would lead to a phenomenon termed model collapse, under which performance progressively degrades with each model-data feedback iteration until fitted models become useless. However, those studies largely assumed that new data replace old data over time, where an arguably more realistic assumption is that data accumulate over time. In this paper, we ask: what effect does accumulating data have on model collapse? We empirically study this question by pretraining sequences of language models on text corpora. We confirm that replacing the original real data by each generation's synthetic data does indeed tend towards model collapse, then demonstrate that accumulating the successive generations of synthetic data alongside the original real data avoids model collapse; these results hold across a range of model sizes, architectures, and hyperparameters. We obtain similar results for deep generative models on other types of real data: diffusion models for molecule conformation generation and variational autoencoders for image generation. To understand why accumulating data can avoid model collapse, we use an analytically tractable framework introduced by prior work in which a sequence of linear models are fit to the previous models' outputs. Previous work used this framework to show that if data are replaced, the test error increases with the number of model-fitting iterations; we extend this argument to prove that if data instead accumulate, the test error has a finite upper bound independent of the number of iterations, meaning model collapse no longer occurs.

研究の動機と目的

  • 自己の出力で訓練される反復的なモデル-データループにおけるモデル崩壊を動機づけ、定義する。
  • 複数のモダリティとアーキテクチャにわたって、データ置換とデータ蓄積を経験的に比較する。
  • データ蓄積下のテスト誤差を境界づけるため、線形モデルの枠組みを用いて理論的洞察を提供する。
  • 合成データと実データを蓄積することで、反復回数に依存しない有限の誤差上限が得られることを示す。

提案手法

  • TinyStories を対象に、サイズと温度を変えてトランスフォーマーからなる言語モデルの系列を実験的に訓練し、データの置換と蓄積を比較する。
  • GEOM-Drugs の GeoDiff による分子アソシエーションの拡散モデルを複数回の反復にわたり訓練し、置換と蓄積を比較する。
  • CelebA 上で変分オートエンコーダを反復訓練し、置換と蓄積を比較する。
  • 解析的に扱いやすい線形モデル枠組み(Mobahi ら;Dohmatob ら)を用い、置換と蓄積の各レジームでのテスト誤差式を導出する。
  • 蓄積下のテスト誤差の上限を導出・提示し、反復回数(n)に依存しないことを示す。
  • データセットサイズ、訓練エポック数、生成温度に対して結果が頑健であることを保証するためのアブレーションとコントロールを提供する。

実験結果

リサーチクエスチョン

  • RQ1データを蓄積する合成データと実データを組み合わせることで、反復的なモデル-データループにおけるモデル崩壊のような劣化を防ぐことができるか?
  • RQ2蓄積は言語、視覚、分子データのモダリティ間で置換とどう比較されるか?
  • RQ3線形モデル枠組みは、置換と蓄積レジーム間で観察されるテスト誤差の成長の違いを説明できるか?
  • RQ4データが蓄積される場合と置換される場合のテスト誤差の理論境界は何か?
  • RQ5経験的な発見はハイパーパラメータ、アーキテクチャ、データセットに対して頑健か?

主な発見

  • データを置換すると、すべてのモデルとデータセットで反復回数が増えるにつれてテスト損失または交差エントロピーが増加する。
  • データを蓄積すると、言語、拡散、VAE の実験で反復を通じて等しいまたは低いテスト損失を維持する。
  • 線形モデル枠組みでは、蓄積下のテスト誤差は反復回数に依存しない定数で上界される(境界には π^2/6 の因子が現れる)。
  • 線形解析は、データの置換が反復とともにテスト誤差を線形に増加させる一方、蓄積は有限の境界を与えることを示す。
  • 結果は言語モデルの 9M–125M パラメータ、分子の拡散モデル、および画像の VAE で一貫している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。