[論文レビュー] Will we run out of data? Limits of LLM scaling based on human-generated data
本論文は言語モデルとビジョンモデルの学習データ量とデータストックの成長をモデル化し、現行の傾向と計算資源制約の下でデータ枯渇の時期を予測します。高品質な言語データは2026年までに枯渇する可能性があり、言語/ビジョン全体のデータストックは2030年から2060年の間に枯渇する可能性があると示唆し、データ効率の改善がない場合には機械学習の進展が鈍化する可能性を示唆します。
We investigate the potential constraints on LLM scaling posed by the availability of public human-generated text data. We forecast the growing demand for training data based on current trends and estimate the total stock of public human text data. Our findings indicate that if current LLM development trends continue, models will be trained on datasets roughly equal in size to the available stock of public human text data between 2026 and 2032, or slightly earlier if models are overtrained. We explore how progress in language modeling can continue when human-generated text datasets cannot be scaled any further. We argue that synthetic data generation, transfer learning from data-rich domains, and data efficiency improvements might support further progress.
研究の動機と目的
- 現在のスケーリング則の下で、過去の傾向と計算資源最適成長を用いて、言語モデルとビジョンモデルの学習データセットの成長を予測する。
- ラベルなしデータの総ストックと蓄積率を推定する(高品質な言語データを重視して).
- さまざまなモデル下でのデータストックの潜在的な枯渇時期を評価し、機械学習の進展への影響を論じる。
提案手法
- 言語とビジョンの歴史的なデータセット規模の成長率を用いて、将来の学習データサイズを推定する。
- 計算資源予算の平方根に比例して最適データ量がスケールするというスケーリング則を用いて、計算最適なデータセットサイズを推定する。
- 人間の人口、インターネット普及率、1人あたりのデータ生成量に基づいて、ラベルなしデータの蓄積率をモデル化し、高品質データと低品質データを区別する。
- 将来のデータ入手可能性を見積もるために、低品質/高品質を含む複数のデータストックモデル(集約モデルを含む)を構築し、枯渇日を予測する。
実験結果
リサーチクエスチョン
- RQ1過去の傾向と計算資源制約仮定の下で、言語およびビジョンの学習データセットサイズの予測軌道はどうなるか?
- RQ22100年までのラベルなしデータの総ストックはどれくらいになり、異なるモデル下でいつ枯渇するか?
- RQ3高品質データと低品質データのストックは、言語モデルおよびビジョンモデルのデータ枯渇時期にどう影響するか?
- RQ4データ効率の改善や新しいデータソースが進展しない場合、データ枯渇がAIの進展速度に与える影響は何か?
- RQ5機械学習のスケーリングにおけるデータ入手性を予測する際の主要な不確実性と限界は何か?
主な発見
- 言語データセットは指数的に成長しており(年間50%超)、2022年10月時点で最大で2e12語を含み、ストックは現在7e13語〜7e16語の間で、年率7%–17.5%で増え続けている。
- 高品質な言語データのストックは4.6e12語〜1.7e13語の間で、妥当なシナリオの下でおそらく2023年〜2027年の間に枯渇するだろう。
- ビジョンデータの現在の成長率は年間約8%で、ストックは8.11e12〜2.3e13枚の間で、2100年までに1%へ減速する見込み。
- 予測からの枯渇時期は、低品質の言語データの場合おおよそ2030〜2040年、ビジョンデータが2030〜2060年、高品質な言語データはおそらく2026年までに枯渇する可能性。
- 本研究は、データ枯渇がデータ効率の改善や新しいデータソースの出現がない限り、MLモデルのスケーリングの主要なボトルネックになる可能性を強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。