QUICK REVIEW

[論文レビュー] The Falcon Series of Open Language Models

Ebtesam Almazrouei, Hamza Alobeidli|arXiv (Cornell University)|Nov 28, 2023

Topic Modeling被引用数 112

ひとこと要約

ファルコンシリーズは、Largeでフィルタリングされたウェブデータセット（RefinedWeb）で学習した 7B、40B、180B のオープンデコーダ LLM を提示し、Falcon-180B は PaLM-2 Large に近く、GPT-3.5/4 に対して競争力を持つ一方、オープンサイエンス推進のためにモデルとデータを公開する。

ABSTRACT

We introduce the Falcon series: 7B, 40B, and 180B parameters causal decoder-only models trained on a diverse high-quality corpora predominantly assembled from web data. The largest model, Falcon-180B, has been trained on over 3.5 trillion tokens of text--the largest openly documented pretraining run. Falcon-180B significantly outperforms models such as PaLM or Chinchilla, and improves upon concurrently developed models such as LLaMA 2 or Inflection-1. It nears the performance of PaLM-2-Large at a reduced pretraining and inference cost, making it, to our knowledge, one of the three best language models in the world along with GPT-4 and PaLM-2-Large. We report detailed evaluations, as well as a deep dive into the methods and custom tooling employed to pretrain Falcon. Notably, we report on our custom distributed training codebase, allowing us to efficiently pretrain these models on up to 4,096 A100s on cloud AWS infrastructure with limited interconnect. We release a 600B tokens extract of our web dataset, as well as the Falcon-7/40/180B models under a permissive license to foster open-science and accelerate the development of an open ecosystem of large language models.

研究の動機と目的

7B、40B、180Bパラメータに跨るオープンデコーダー専用LLMのスケーラブルな事前学習を実証する。
フィルタリングと重複排除を施した大規模ウェブデータが、厳選データセットと同等以上の自然言語ゼロショットタスク性能を発揮できることを示す。
大規模クラウド基盤での効率的な事前学習を実現する設計選択とカスタムハードウェア/ソフトウェアスタックを説明する。
モデルと大規模なウェブデータ抽出データセットを公開アクセス可能にし、オープンサイエンスとエコシステムの成長を促進する。

提案手法

RefinedWeb 上で最大3,500Bトークンを用いて、Falcon-7B、Falcon-40B、Falcon-180Bの3つの因果デコーダー専用モデルを訓練する。
限られたインターコネクトの中で最大4,096台のA100 GPUで実行できるよう、3D並列性とオプティマイザシャーディングを組み合わせたカスタム分散訓練を使用する。
アーキテクチャの調整（マルチクエリ、Rotary vs ALiBi、メモリ節約技術など）と厳密なハイパーパラメータ検証を採用する。
品質とカバレッジを最大化するため、フィルタリングと重複排除を強調したWebデータを用いるデータパイプラインで事前学習を行う。
Falcon-7B/40B/180B および RefinedWeb の600Bトークン抽出データを寛容なライセンスの下で公開し、再現性とオープン・サイエンスを可能にする。

実験結果

リサーチクエスチョン

RQ1高度にフィルタリングされ重複排除されたウェブデータのみで、厳選コーパスで訓練されたモデルのゼロショット性能に匹敵・上回ることができるか？
RQ2強力なウェブベースラインに追加された厳選データが自然言語ゼロショット性能に与える影響は何か？
RQ3限定的な多言語データやコードデータの追加は英語性能を著しく低下させるか、どの程度か？
RQ4大規模事前学習でハードウェア効率とスケーラビリティを最大化するためのアーキテクチャ/データパイプラインの選択肢は何か？
RQ5モデルとデータの公開がオープンな研究とエコシステムの発展にどう影響するか？

主な発見

Falcon-7B	Falcon-40B	Falcon-180B	事前学習 [トークン]	計算量 [PF日]	訓練 [A100台]	入手可能性	総合性能（セクション6.5）	最も近いモデル
1,500B	1,000B	3,500B	730	2,800	384	Apache 2.0	60.8	<GPT-3
			40,?	?	?	Apache 2.0	67.1	Chinchilla
					4,096	Responsible use license	70.3	PaLM-2 Large

Falcon-180B は PaLM や Chinchilla を大幅に上回り、幅広いタスク群で1ショット評価において PaLM-2 Large に近づく。
Falcon-180B は性能で PaLM-2 Large に近づきつつ、事前学習と推論コストを低く抑え、オープンかつ世界トップクラスのモデルの中に位置づけられる。
RefinedWeb（フィルタリング+重複排除済みウェブデータ）は、小規模ステージでの自然言語ゼロショットタスクにおいて、厳選データセット（The Pile など）や他のウェブデータセット（C4, OSCAR）を上回る。フィルタリングと重複排除が重要。
強力なウェブベースラインの代わりに厳選データを追加すると、ゼロショット性能は一般に改善せず、むしろ低下することがあり、特に書籍・技術データで顕著である一方、会話データはより安定している。
限定的な多言語データまたはコードデータ（5-10%）の導入は英語性能を著しく低下させない、控えめな多言語データであっても堅牢なドメイン横断転移を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。