QUICK REVIEW

[论文解读] The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman|arXiv (Cornell University)|Dec 31, 2020

Topic Modeling参考文献 50被引用 483

一句话总结

The Pile 是一个大型的、825 GiB 的英语文本数据集，由 22 个多样来源组成，旨在提高语言模型的跨领域泛化能力。在 Pile 上训练的模型在多个组件上优于在 CC-100 和原始 Common Crawl 上训练的模型。

ABSTRACT

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present extit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.

研究动机与目标

动机：为广域领域语言建模，需超越 Common Crawl 的多样且高质量的训练数据。
介绍 22 组件的 Pile 及其构建过程，包括新数据集和现有数据集。
展示在 Pile 上训练的模型在下游任务上的性能优于 CC-100 和 Raw CC。
提供广泛的文档和工具，以实现可重复性和对数据集使用的知情决策。

提出的方法

将 22 个多样且高质量的数据集整合为一个单一的 825 GiB 英语文本语料库（The Pile）。
重复与质量控制步骤包括使用 Pile-CC 以及对每个组件的各种预处理选项。
在不同数据源上训练 1.3B 参数模型，以比较跨域泛化能力。
以 bits per UTF-8 byte (bpb) 作为主要指标进行评估，并对跨组件的 GPT-2/GPT-3 逐文档困惑度进行计算。
执行大小受控的下采样和去重，以实现跨数据集的公平比较。
分析数据集主题和文档特征，以记录潜在的关注点和偏见。

实验结果

研究问题

RQ1通过 Pile 增加数据集多样性是否能提升语言模型的跨域泛化，相较于在 CC-100 或 Raw CC 上训练？
RQ2Pile 中哪些组件对性能的影响最大，且在学术、编程和多语言内容上，Pile 上训练的模型表现如何？
RQ3GPT-2/GPT-3 在各个单独的 Pile 组件上的表现如何，以及对未来数据组成的含义？
RQ4在如此庞大而多样的语料库上进行训练，会产生哪些伦理与文档方面的考虑？如何应对？
RQ5降采样到固定大小如何影响关于数据集质量与泛化的结论？

主要发现

在保留数据上评估时，Pile 上训练的模型在几乎所有 Pile 组件上都显著优于 CC-100 和 Raw CC。
在若干组件上，GPT-2/GPT-3 的零-shot 困惑度表明学术和领域特定文本（如 PubMed Central、ArXiv、FreeLaw）在没有目标数据时具有挑战性，凸显了 Pile 多样性的好处。
仅有 Pile-CC 时收益有限；其他组件对跨域性能有实质性贡献，尤其是学术、编程和数学内容。
Pile 组件与 GPT-3 的训练数据并非大体重复，表明覆盖范围广泛，超出网络文本。
通过基于困惑度的方法对 Common Crawl 进行过滤可能会降低多样性，可能在某些领域损害性能，强调需要谨慎的数据策划。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。