QUICK REVIEW

[论文解读] Will we run out of data? Limits of LLM scaling based on human-generated data

Pablo Villalobos, Anson Ho|arXiv (Cornell University)|Oct 26, 2022

Topic Modeling被引用 76

一句话总结

本文模型展示了训练数据规模和语言/视觉模型的数据存量如何增长，并在当前趋势和计算约束下预测数据耗尽的时间表。研究发现高质量语言数据可能在2026年前耗尽，整体语言/视觉数据存量在2030年至2060年之间耗尽，这意味着在数据效率提升之前，机器学习进展可能放缓。

ABSTRACT

We investigate the potential constraints on LLM scaling posed by the availability of public human-generated text data. We forecast the growing demand for training data based on current trends and estimate the total stock of public human text data. Our findings indicate that if current LLM development trends continue, models will be trained on datasets roughly equal in size to the available stock of public human text data between 2026 and 2032, or slightly earlier if models are overtrained. We explore how progress in language modeling can continue when human-generated text datasets cannot be scaled any further. We argue that synthetic data generation, transfer learning from data-rich domains, and data efficiency improvements might support further progress.

研究动机与目标

基于历史趋势和在当前尺度定律下的计算最优增长，预测语言与视觉模型的训练数据集增长。
估算未标记数据的总存量和积累速率（重点是高质量语言数据）。
在不同模型下评估数据存量耗尽的时间线，并讨论对ML进展的影响。

提出的方法

使用语言和视觉的历史数据集规模增长率来预测未来的训练数据规模。
利用尺度定律中数据规模与计算预算平方根成正比的关系，计算最优数据集规模预测。
基于人口规模、互联网渗透和每用户数据生成来建模未标记数据的积累速率，区分高质量与低质量数据。
构建多种数据存量模型（低/高质量；聚合）以界定未来数据可用性并预测耗尽日期。

实验结果

研究问题

RQ1在历史趋势和计算约束假设下，语言和视觉训练数据集规模的预测轨迹是什么？
RQ2到2100年未标记数据的总存量将有多大，以及在不同模型下这些存量何时耗尽？
RQ3高质量与低质量数据存量如何影响语言和视觉模型数据耗尽的时间？
RQ4若数据效率未提升或未出现新数据源，数据耗尽对AI进展速度的影响是什么？
RQ5在预测ML规模所需的数据可用性时，存在哪些关键的不确定性和局限性？

主要发现

语言数据集呈指数增长（每年超过50%），截至2022年10月词数高达2e12，存量目前在7e13到7e16之间，年增长率为7%–17.5%。
高质量语言数据存量在4.6e12到1.7e13字之间，在可行情景下可能在2023年至2027年耗尽。
视觉数据当前增长率约为每年8%，存量在8.11e12到2.3e13张图像之间，预计到2100年增速将降至1%。
来自预测的耗尽日期表明语言数据耗尽大约在2030年至2040年之间（低质量），视觉数据在2030年至2060年之间耗尽，高质量语言数据可能在2026年前耗尽。
研究指出，除非数据效率提升或出现新数据源，否则数据耗尽可能成为扩展ML模型的主要瓶颈。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。