[论文解读] The Pile: An 800GB Dataset of Diverse Text for Language Modeling
The Pile 是一个大型的、825 GiB 的英语文本数据集,由 22 个多样来源组成,旨在提高语言模型的跨领域泛化能力。在 Pile 上训练的模型在多个组件上优于在 CC-100 和原始 Common Crawl 上训练的模型。
Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present extit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.
研究动机与目标
- 动机:为广域领域语言建模,需超越 Common Crawl 的多样且高质量的训练数据。
- 介绍 22 组件的 Pile 及其构建过程,包括新数据集和现有数据集。
- 展示在 Pile 上训练的模型在下游任务上的性能优于 CC-100 和 Raw CC。
- 提供广泛的文档和工具,以实现可重复性和对数据集使用的知情决策。
提出的方法
- 将 22 个多样且高质量的数据集整合为一个单一的 825 GiB 英语文本语料库(The Pile)。
- 重复与质量控制步骤包括使用 Pile-CC 以及对每个组件的各种预处理选项。
- 在不同数据源上训练 1.3B 参数模型,以比较跨域泛化能力。
- 以 bits per UTF-8 byte (bpb) 作为主要指标进行评估,并对跨组件的 GPT-2/GPT-3 逐文档困惑度进行计算。
- 执行大小受控的下采样和去重,以实现跨数据集的公平比较。
- 分析数据集主题和文档特征,以记录潜在的关注点和偏见。
实验结果
研究问题
- RQ1通过 Pile 增加数据集多样性是否能提升语言模型的跨域泛化,相较于在 CC-100 或 Raw CC 上训练?
- RQ2Pile 中哪些组件对性能的影响最大,且在学术、编程和多语言内容上,Pile 上训练的模型表现如何?
- RQ3GPT-2/GPT-3 在各个单独的 Pile 组件上的表现如何,以及对未来数据组成的含义?
- RQ4在如此庞大而多样的语料库上进行训练,会产生哪些伦理与文档方面的考虑?如何应对?
- RQ5降采样到固定大小如何影响关于数据集质量与泛化的结论?
主要发现
- 在保留数据上评估时,Pile 上训练的模型在几乎所有 Pile 组件上都显著优于 CC-100 和 Raw CC。
- 在若干组件上,GPT-2/GPT-3 的零-shot 困惑度表明学术和领域特定文本(如 PubMed Central、ArXiv、FreeLaw)在没有目标数据时具有挑战性,凸显了 Pile 多样性的好处。
- 仅有 Pile-CC 时收益有限;其他组件对跨域性能有实质性贡献,尤其是学术、编程和数学内容。
- Pile 组件与 GPT-3 的训练数据并非大体重复,表明覆盖范围广泛,超出网络文本。
- 通过基于困惑度的方法对 Common Crawl 进行过滤可能会降低多样性,可能在某些领域损害性能,强调需要谨慎的数据策划。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。