Skip to main content
QUICK REVIEW

[논문 리뷰] Will we run out of data? Limits of LLM scaling based on human-generated data

Pablo Villalobos, Anson Ho|arXiv (Cornell University)|2022. 10. 26.
Topic Modeling인용 수 76
한 줄 요약

논문은 언어 모형과 비전 모형의 학습 데이터 규모와 데이터 재고량이 역사적 추세와 현재의 컴퓨트 제약 하에서 어떻게 증가하는지 모델링하고, 데이터 효율성 향상이나 새로운 데이터 소스가 없을 경우 데이터 고갈 시점을 예측한다. 고품질 언어 데이터는 2026년까지 고갈될 수 있고 전반적인 언어/비전 데이터 재고량은 2030년~2060년 사이에 고갈될 수 있어 데이터 효율성 강화 없이는 ML 진보가 느려질 수 있음을 시사한다.

ABSTRACT

We investigate the potential constraints on LLM scaling posed by the availability of public human-generated text data. We forecast the growing demand for training data based on current trends and estimate the total stock of public human text data. Our findings indicate that if current LLM development trends continue, models will be trained on datasets roughly equal in size to the available stock of public human text data between 2026 and 2032, or slightly earlier if models are overtrained. We explore how progress in language modeling can continue when human-generated text datasets cannot be scaled any further. We argue that synthetic data generation, transfer learning from data-rich domains, and data efficiency improvements might support further progress.

연구 동기 및 목표

  • 역사적 추세와 현재 규모의 법칙에 따른 컴퓨트 최적화 성장으로 언어 및 비전 모형의 학습 데이터셋 성장을 예측한다.
  • 비지도 데이터의 총 재고 및 축적 속도(특히 고품질 언어 데이터에 중점)를 추정한다.
  • 다양한 모델 하에서 데이터 재고의 고갈 시점을 평가하고 ML 진보에 대한 시사점을 논의한다.

제안 방법

  • 언어 및 비전의 과거 데이터셋 규모 증가율을 사용해 향후 학습 데이터 크기를 예측한다.
  • 최적 데이터 스케일이 컴퓨트 예산의 제곱근에 비례한다고 가정하는 scaling laws를 사용해 계산 최적의 데이터셋 크기 예측을 수행한다.
  • 인간 인구, 인터넷 보급률, 사용자당 데이터 생성량에 따라 비지도 데이터의 축적 속도를 모델링하고 고품질/저품질 데이터를 구분한다.
  • 데이터 재고 모델을 다수 구성(저품질/고품질; 집계)해 향후 데이터 가용성을 한정하고 고갈 날짜를 예측한다.

실험 결과

연구 질문

  • RQ1역사적 추세와 컴퓨트 제약 가정 하에서 언어 및 비전 학습 데이터셋 크기의 예상 경로는 무엇인가?
  • RQ22100년까지 비지도 데이터의 총 재고는 얼마나 커지며 서로 다른 모델 하에서 언제 고갈될 것인가?
  • RQ3고품질 데이터 재고와 저품질 데이터 재고가 언어 및 비전 모형의 데이터 고갈 시점에 어떤 영향을 미치는가?
  • RQ4데이터 효율성이나 새로운 데이터 소스가 개선되지 않을 경우 데이터 고갈이 AI 진보 속도에 주는 시사점은 무엇인가?
  • RQ5ML 스케일링을 위한 데이터 가용성 예측의 주요 불확실성과 한계는 무엇인가?

주요 결과

  • 언어 데이터셋은 기하급수적으로 성장해(연간 50% 이상) 2022년 10월 기준 최대 2e12 단어를 포함하며 재고는 현재 7e13에서 7e16 단어 사이이고 연간 7%–17.5%로 증가하고 있다.
  • 고품질 언어 데이터의 재고는 4.6e12에서 1.7e13 단어 사이이며 plausibly한 시나리오에서 2023년~2027년 사이에 고갈될 가능성이 있다.
  • 비전 데이터의 현재 성장률은 연간 약 8%이고 재고는 8.11e12에서 2.3e13 이미지 사이이며 2100년까지 1%로 둔화될 것으로 예상된다.
  • 고갈 시점 예측은 언어 데이터의 고갈이 대략 2030년~2040년(저품질) 사이이고 비전 데이터는 2030년~2060년 사이로 제시되며 고품질 언어 데이터는 2026년까지 고갈될 가능성이 높다.
  • 본 연구는 데이터 고갈이 데이터 효율성의 개선이나 새로운 데이터 소스가 등장하지 않는 한 ML 모델의 스케일링에 대한 주요 병목 현상이 될 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.