Skip to main content
QUICK REVIEW

[论文解读] The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman|arXiv (Cornell University)|Dec 31, 2020
Topic Modeling参考文献 50被引用 483
一句话总结

The Pile 是一个大型的、825 GiB 的英语文本数据集,由 22 个多样来源组成,旨在提高语言模型的跨领域泛化能力。在 Pile 上训练的模型在多个组件上优于在 CC-100 和原始 Common Crawl 上训练的模型。

ABSTRACT

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present extit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.

研究动机与目标

  • 动机:为广域领域语言建模,需超越 Common Crawl 的多样且高质量的训练数据。
  • 介绍 22 组件的 Pile 及其构建过程,包括新数据集和现有数据集。
  • 展示在 Pile 上训练的模型在下游任务上的性能优于 CC-100 和 Raw CC。
  • 提供广泛的文档和工具,以实现可重复性和对数据集使用的知情决策。

提出的方法

  • 将 22 个多样且高质量的数据集整合为一个单一的 825 GiB 英语文本语料库(The Pile)。
  • 重复与质量控制步骤包括使用 Pile-CC 以及对每个组件的各种预处理选项。
  • 在不同数据源上训练 1.3B 参数模型,以比较跨域泛化能力。
  • 以 bits per UTF-8 byte (bpb) 作为主要指标进行评估,并对跨组件的 GPT-2/GPT-3 逐文档困惑度进行计算。
  • 执行大小受控的下采样和去重,以实现跨数据集的公平比较。
  • 分析数据集主题和文档特征,以记录潜在的关注点和偏见。

实验结果

研究问题

  • RQ1通过 Pile 增加数据集多样性是否能提升语言模型的跨域泛化,相较于在 CC-100 或 Raw CC 上训练?
  • RQ2Pile 中哪些组件对性能的影响最大,且在学术、编程和多语言内容上,Pile 上训练的模型表现如何?
  • RQ3GPT-2/GPT-3 在各个单独的 Pile 组件上的表现如何,以及对未来数据组成的含义?
  • RQ4在如此庞大而多样的语料库上进行训练,会产生哪些伦理与文档方面的考虑?如何应对?
  • RQ5降采样到固定大小如何影响关于数据集质量与泛化的结论?

主要发现

  • 在保留数据上评估时,Pile 上训练的模型在几乎所有 Pile 组件上都显著优于 CC-100 和 Raw CC。
  • 在若干组件上,GPT-2/GPT-3 的零-shot 困惑度表明学术和领域特定文本(如 PubMed Central、ArXiv、FreeLaw)在没有目标数据时具有挑战性,凸显了 Pile 多样性的好处。
  • 仅有 Pile-CC 时收益有限;其他组件对跨域性能有实质性贡献,尤其是学术、编程和数学内容。
  • Pile 组件与 GPT-3 的训练数据并非大体重复,表明覆盖范围广泛,超出网络文本。
  • 通过基于困惑度的方法对 Common Crawl 进行过滤可能会降低多样性,可能在某些领域损害性能,强调需要谨慎的数据策划。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。