[論文レビュー] Public code for Model Collapse
この論文は、モデル生成データで訓練すると真のデータ分布が忘れられ、裾が消え、学習したモデルが単純な表現へと収束するという退化的な『モデル崩壊』を、GMMs、VAEs、LLMsの各系統で示している。
Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.
研究の動機と目的
- 生成モデルデータがウェブから繰り返しスクレイピングされると、後続のモデルを汚染する可能性があることを動機づける。
- 異なるモデルファミリ(GMMs、VAEs、LLMs)間でのモデル崩壊現象を特徴づける。
- 有限サンプリングと機能近似誤差が元のデータ分布からの乖離を駆動する程度を定量化する。
- 崩壊を緩和するためには本物の人間生成データへのアクセスの重要性を主張する。
提案手法
- モデル崩壊を、各世代が前の世代によって生成されたデータで訓練される退化的・生成的学習過程として導入する。
- 元の分布と生成-i分布の乖離を測る指標としてワッサースタイン距離(W2)を用いる。
- 簡単な toy モデル(離散分布と1次元ガウス分布)を用いてリスクを解析的に境界づけ、裾が世代を経てどのように侵食されるかを示す。
- 統計的近似誤差と機能近似誤差の両方が連鎖効果に寄与し、距離を有限に保つには超線形のデータ収集が必要であることを導く。
- GMMsとVAEsへの解析を拡張し、裾が洗い流され、モードが世代を経て絡み合うことを示す。
- LLMsのファインチューニングとスクラッチからの訓練を比較し、崩壊の初期兆候が見られることを指摘する。
実験結果
リサーチクエスチョン
- RQ1前のモデル世代によって生成されたデータで訓練すると、元のデータ分布が世代を経て侵食されるか?
- RQ2モデル崩壊は複数の生成モデルファミリ(GMMs、VAEs、LLMs)にわたって観察されるか?
- RQ3崩壊を駆動する主なメカニズム(統計的誤差 vs. 機能誤差)は何で、それらをどう定量化するか?
- RQ4人間生成データへのアクセスは、特にLLMsにとって、モデル崩壊の緩和にどのような役割を果たすか?
主な発見
- モデル崩壊は普遍的な退化過程であり、生成データが後続の訓練データを汚染し、モデルが現実を誤って知覚する原因となる。
- 元の分布の裾は初期段階で消え去り、世代を経るにつれて学習された分布は分散を減じてデルタ様になる。
- 単純なガウス分布と離散分布の toy モデルでは、有限サンプリングがランダムウォークのようなドリフトを生み出し、サンプリングが超線形に増えない限り真の分布からの距離を大きくする。
- GMMsとVAEsの実験では、世代的データを用いると潜在表現が単峰になり、元のモードから逐次乖離していく。
- 生成データで訓練またはファインチューニングされたLLMsは崩壊の初期兆候を示し、大規模なウェブデータの人間生成コンテンツなしの再利用リスクを浮き彫りにする。
- ワッサースタイン距離に基づく理論的境界は、有限サンプリング下で世代とともに元の分布からの期待偏差が増大することを示し、巨大なデータ再生成がなければ崩壊は避けられないことを強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。