[論文レビュー] The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
Web-only RefinedWeb は、厳選済みコーパスや The Pile を上回るモデルを生み出し、zero-shot ベンチマークで GPT-3 に匹敵する。公開の 600B 抽出から 5 trunk tokens を使用。
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
研究の動機と目的
- 適切にフィルタリングとデデュプリケーションを行った場合、ウェブデータだけで、厳選コーパスと比べて競合的または優位な zero-shot パフォーマンスを達成できるかを調査する。
- ウェブ中心の事前学習パイプラインを兆級トークンへスケールアップし、データ品質を従来の厳選ソースと比較評価する。
- 高品質なウェブデータセット(RefinedWeb)と公開抽出物を開発・公開し、コミュニティのベースラインとして提供する。
- フィルタリングおよびデデュプリケーション段階が、複数のスケールにわたるモデル性能に与える影響を評価する。
提案手法
- MacroData Refinement (MDR) を導入して、CommonCrawl のウェブデータを非常に大規模にフィルタリングおよびデデュプリケーションする。
- RW-Raw から RW-Filtered を生成するために、厳格な言語識別、URLフィルタリング、コンテンツ抽出、および行単位の修正を適用する。
- ファジー(MinHash)と厳密(suffix array)法の両方を用いた積極的なデデュプリケーション、およびダンプ間のURLデデュプリケーションを実施する。
- 350B tokens で 1B、3B、7B パラメータの自己回帰デコーダ専用モデルを訓練し、The Pile、C4、OSCAR、The Pile などのデータセットと比較する。
- EleutherAI evaluation harness を用いて、 broad task aggregation(small, core, main, ext)での zero-shot パフォーマンスを評価する。
実験結果
リサーチクエスチョン
- RQ1適切にフィルタリングされ、デデュプリケーションされたウェブデータだけで、厳選コーパスで訓練されたモデルと同等またはそれを上回る zero-shot 評価を達成できるか?
- RQ2各 MDR コンポーネント(フィルタリング、デデュプリケーション)が、データセット全体での zero-shot パフォーマンスへ与える影響はどのようか?
- RQ3RefinedWeb は異なるモデルスケール(1B, 3B, 7B)で、The Pile および GPT-3 のベースラインと比べてどのように性能を発揮するか?
- RQ4MDR パイプラインは、独立して適用した場合に既存の事前学習データセットを改善できるか?
主な発見
- RefinedWeb のみで訓練されたモデルは、厳選コーパスおよび The Pile で訓練されたモデルを、複数のスケールでの zero-shot 精度において上回る。
- Web データは厳密なフィルタリングとデデュプリケーションを備えることで、GPT-3 モデルの評価設定と同等の性能を発揮できる。
- 350GT の事前学習で 1B および 7B パラメータのとき、RefinedWeb ベースのモデルは著者の評価フレームワーク内で GPT-3 と比較可能な性能に達する。
- デデュプリケーションはデータセット全体で一貫して zero-shot パフォーマンスを向上させる一方、フィルタリングはソースデータに応じて変動効果をもたらす。
- 著者らは RefinedWeb の public 600B-token extract を公開し、350GT で訓練した 1B および 7B モデルで強い結果を示す。
- 他のデータセットに MDR を適用することで改善を得られる可能性があり、特にデデュプリケーションを通じて、フィルタリングの効果がソース依存である場合でも向上が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。