Skip to main content
QUICK REVIEW

[論文レビュー] The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman|arXiv (Cornell University)|Dec 31, 2020
Topic Modeling参考文献 50被引用数 483
ひとこと要約

The Pile は 22 の多様なソースから成る大規模な 825 GiB の英語テキストデータセットで、言語モデルの跨ドメイン一般化を改善するよう設計されています。Pile で訓練されたモデルは、CC-100 および Raw Common Crawl で訓練されたモデルよりも、複数の構成要素において優れた性能を発揮します。

ABSTRACT

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we present extit{the Pile}: an 825 GiB English text corpus targeted at training large-scale language models. The Pile is constructed from 22 diverse high-quality subsets -- both existing and newly constructed -- many of which derive from academic or professional sources. Our evaluation of the untuned performance of GPT-2 and GPT-3 on the Pile shows that these models struggle on many of its components, such as academic writing. Conversely, models trained on the Pile improve significantly over both Raw CC and CC-100 on all components of the Pile, while improving performance on downstream evaluations. Through an in-depth exploratory analysis, we document potentially concerning aspects of the data for prospective users. We make publicly available the code used in its construction.

研究の動機と目的

  • Common Crawl を超える多様で高品質な訓練データの必要性を、広範なドメイン言語モデリングのために動機づける。
  • 22 コンポーネントの Pile とその構成(新規データと既存データを含む)を紹介する。
  • Pile で訓練したモデルの下流性能が CC-100 および Raw CC と比較して改善されることを示す。
  • 再現性とデータセットの適切な利用を促進するための包括的な文書化とツールを提供する。

提案手法

  • 22 の多様で高品質なデータセットを単一の 825 GiB 英語テキストコーパス(The Pile)に統合する。
  • Pile-CC を用いた重複排除・品質管理の手順と、各コンポーネントごとのさまざまな前処理選択を含む。
  • 異なるデータソース上で 1.3B パラメータのモデルを訓練し、跨ドメイン一般化を比較する。
  • 主指標としてビット/UTF-8 バイト(bpb)を用い、各コンポーネントで GPT-2/GPT-3 のドキュメント別困惑度を算出する。
  • 公正なクロスデータセット比較を可能にするため、サイズを一定に下振りして重複除去を行う。
  • データセットのトピックとドキュメント特性を分析し、潜在的な懸念と偏りを文書化する。

実験結果

リサーチクエスチョン

  • RQ1Pile のデータセット多様性を高めることは、CC-100 または Raw CC で訓練した場合と比べて言語モデルの跨ドメイン一般化を改善するか。
  • RQ2Pile のどのコンポーネントが性能に最も影響を与え、Pile で訓練したモデルは学術・プログラミング・多言語コンテンツでどう評価されるか。
  • RQ3GPT-2/GPT-3 は個々の Pile コンポーネントでどの程度性能を示し、今後のデータ構成にどんな示唆を与えるか。
  • RQ4このように大規模で多様なコーパスで訓練することに伴う倫理的・文書化上の考慮事項は何か、そしてそれをどう対処できるか。
  • RQ5固定サイズへのダウンサンプリングはデータセットの品質と一般化に関する結論にどう影響するか。

主な発見

  • Pile で訓練されたモデルは、持ち越しデータで評価した際、ほぼすべての Pile コンポーネントで CC-100 および Raw CC より著しい改善を示す。
  • いくつかのコンポーネントにおける GPT-2/GPT-3 のゼロショット困惑度は、学術的・ドメイン特化テキスト(例:PubMed Central、ArXiv、FreeLaw)ではターゲットデータなしでは難しいことを示しており、Pile の多様性の利点を浮き彫りにする。
  • Pile-CC のみでは得られる利点は限定的であり、他のコンポーネントが特に学術・プログラミング・数学的内容において跨ドメイン性能に substantial に寄与する。
  • Pile のコンポーネントは GPT-3 訓練データと大きく重複していないため、ウェブベースのテキストを超える広範なカバレッジを示している。
  • Common Crawl を困惑度ベースの方法でフィルタリングすると多様性が低下し、いくつかのドメインで性能が低下する可能性があるため、慎重なデータ選定が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。