[論文レビュー] PaLM: Scaling Language Modeling with Pathways
PaLM は 780B トークンを使用して Pathways システムで 540B パラメータのオートレグレッシブ・トランスフォーマーを訓練し、数百のタスクで最先端の few-shot 結果を達成し、推論と多言語機能に顕著な改善を示します。
Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.
研究の動機と目的
- 言語モデルをスケールさせることが、広範な NLP タスクにおける few-shot 学習にどのように影響するかを調査する。
- TPU v4 Pods 上の Pathways を用いた、パイプラインフリーの超大規模モデルの効率的な訓練を実証する。
- PaLM を英語 NLP ベンチマーク、BIG-bench、 multilingual タスク、コード生成、翻訳で評価する。
- バイアス、毒性、記憶の分析を行い、倫理的配慮と潜在的な緩和策を検討する。」,
- method25: [
提案手法
- 訓練速度を向上させるため、SwiGLUアクティベーションと並列トランスフォーマーレイヤを備えたデコーダーのみのトランスフォーマーを使用する。
- マルチクエリアテンション、RoPE 埋め込み、共有の入力-出力埋め込み、バイアスなし、そして multilingual データをサポートする256kの SentencePiece ボキャブラリを採用する。
- Pathways システムを介して6144個のTPU v4チップで、コードを含む780Bトークンの混合データで、3つのモデルサイズ(8B、62B、540B)を訓練する。
- Model FLOPs Utilization(MFU)でモデルの効率を測定し、HFUを用いた従来モデルと比較する。
- 29 の英語ベンチマーク、BIG-bench、翻訳、マルチリンガルNLG/QA、推論タスクで評価する;バイアス/毒性と記憶の分析を行う。
実験結果
リサーチクエスチョン
- RQ1モデルのスケールを拡大することは、さまざまなNLPタスクにおけるfew-shot性能にどのように影響するか?
- RQ2Pathwaysで540Bモデルを訓練して、タスク固有のファインチューニングなしにSOTAを達成できるか?
- RQ3PaLM の多言語機能、推論能力、コード生成能力はどのようで、どのようにスケールするか?
- RQ4PaLM のスケールにわたるバイアス・毒性・記憶特性はどのようで、それらをどのように緩和できるか?
主な発見
- PaLM 540B は数百のタスクで最先端の few-shot 結果を達成し、多くのベンチマークで事前に微調整されたSOTAを上回る。
- BIG-bench では、いくつかのタスクでスケールに伴う不連続な改善が見られ、出現的な能力を示唆する。
- PaLM は強力な多言語性能を示し、比較的少ない非英語データ量で、いくつかのタスクにおいて非英語のSOTAとギャップを埋める。
- PaLM は few-shot 設定で連鎖的思考プロンプティングを用いた画期的な推論能力を示す。
- PaLM 540B のモデルFLOPs利用率(MFU)は自己注意ありで46.2%、なしで45.7%に達し、高い訓練効率を示す。
- バイアスと毒性の分析は、いくつかのバイスタスクでスケール依存の改善を示す一方、固定化された性格の連想とプロンプト依存の毒性は持続していることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。