[論文レビュー] ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
本論文は hundred-billion-parameter の中国語 dense pre-trained model(ERNIE 3.0 Titan)を260Bパラメータで訓練し、信頼性の高い/制御可能な生成とオンライン蒸留を導入し、68 NLPデータセットにおいて最先端の結果を示します。
Pre-trained language models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. GPT-3 has shown that scaling up pre-trained language models can further exploit their enormous potential. A unified framework named ERNIE 3.0 was recently proposed for pre-training large-scale knowledge enhanced models and trained a model with 10 billion parameters. ERNIE 3.0 outperformed the state-of-the-art models on various NLP tasks. In order to explore the performance of scaling up ERNIE 3.0, we train a hundred-billion-parameter model called ERNIE 3.0 Titan with up to 260 billion parameters on the PaddlePaddle platform. Furthermore, we design a self-supervised adversarial loss and a controllable language modeling loss to make ERNIE 3.0 Titan generate credible and controllable texts. To reduce the computation overhead and carbon emission, we propose an online distillation framework for ERNIE 3.0 Titan, where the teacher model will teach students and train itself simultaneously. ERNIE 3.0 Titan is the largest Chinese dense pre-trained model so far. Empirical results show that the ERNIE 3.0 Titan outperforms the state-of-the-art models on 68 NLP datasets.
研究の動機と目的
- ER NI E 3.0 を最大260Bパラメータにスケールさせることで、知識強化型事前学習を前進させる。
- 事前学習中に信頼性が高く制御可能な生成を統合し、出力の実証性と制御性を向上させる。
- 最小限の追加コストで、より小さく、デプロイ可能なモデルを効率的に生成するオンライン蒸留フレームワークを開発する。
- 多様な中国語NLPタスクとデータセットにわたるスケーラビリティと有効性を示す。
提案手法
- NLUとNLG用のタスク固有モジュールを備えた普遍的表現モジュール(大規模 Transformer-XL バックボーン)を採用。
- 語彙認識・構造認識・知識認識を備えた事前学習タスクを設計し、UKTPとCredible and Controllable Generations フレームワークを含む。
- テキストの信頼性を高めるための自己教師付き敵対損失を導入し、ソフトプロンプトを用いた生成属性を制御する制御可能な言語モデル損失を導入する。
- オンライン蒸留フレームワーク(On-the-Fly Distillation、teacher assistants、Auxiliary Layer Distillation)を提案し、事前学習中に複数のコンパクトな学生モデルを訓練する。
- 4Dハイブリッド並列性(データ、層内テンソルモデル、層間パイプラインモデル、シャーディングデータ並列性)と PaddlePaddle 上のヘテロジニアスなハードウェア対応トレーニングを用いて260B規模の訓練。
- ERNIE 3.0 Corpusに adversarial および controllable データセットを加えたデータで事前学習を行い、生成タスクのシーケンス長を512、メモリ長を128のまま保持する。
実験結果
リサーチクエスチョン
- RQ1ER NIE 3.0 を hundred-billion-parameter 規模にスケールさせることで、NLU/NLGタスクの性能はどう変化するか?
- RQ2信頼性の高い/制御可能な生成を事前学習に効果的に組み込んで、出力の実証性と制御性を改善できるか?
- RQ3オンライン蒸留は大きな追加コストなしに、より小さくデプロイ可能なモデルを効率的に公開することが feasibile か?
- RQ4大規模な知識強化型事前学習が、多様な中国語NLPデータセット(68データセット)に与える影響は何か?
主な発見
| 構成 | NPUs | DP | グローバルバッチサイズ | Speedup |
|---|---|---|---|---|
| Default | 392 | 1 | 512 | - |
| Default | 1568 | 4 | 2048 | - |
| Resource-aware-partition | 480 | 1 | 512 | 2.19 |
| Resource-aware-partition | 1920 | 4 | 2048 | 2.17 |
- ERNIE 3.0 Titan は 68 の NLP データセットにおいて最先端モデルを上回る。
- 本モデルは 260B を超えるパラメータ(最大 260B)を達成し、優れた生成と理解能力を示す。
- オンライン蒸留により、事前学習中に Titan を複数の小型モデルへ蒸留し、従来の訓練と同等の効率性を実現する。
- 信頼性のある敵対的損失と制御可能な言語モデリング損失は、生成テキストの品質と制御性を向上させる。
- リソース認識型分散訓練とヘテロジニアスなハードウェア(GPUとNPU)により強力なウェークスケーラビリティを実現し、スループットの大幅な向上を達成。
- 本論文は従来の大規模密集モデルと比較して下流タスクでSOTA結果を報告している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。