[論文レビュー] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
ERNIE 3.0は、自動回帰と自動符号化の目的を融合した大規模で知識強化された事前学習フレームワークを導入し、継続的なマルチパラダイムアプローチと4TBのプレーンテキストと知識グラフデータの混合に導かれ、言語理解と生成タスクの両方で高い性能を実現します。
Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up pre-trained language models can improve their generalization abilities. Particularly, the GPT-3 model with 175 billion parameters shows its strong task-agnostic zero-shot/few-shot learning capabilities. Despite their success, these large-scale models are trained on plain texts without introducing knowledge such as linguistic knowledge and world knowledge. In addition, most large-scale models are trained in an auto-regressive way. As a result, this kind of traditional fine-tuning approach demonstrates relatively weak performance when solving downstream language understanding tasks. In order to solve the above problems, we propose a unified framework named ERNIE 3.0 for pre-training large-scale knowledge enhanced models. It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%).
研究の動機と目的
- 下流タスクの性能を向上させるため、知識(言語知識と世界知識)を大規模な事前学習へ統合する動機づけ。
- NLU、NLG、および知識抽出タスクをサポートする統一的なContinual Multi-Paradigms Unified Pre-training Frameworkを提案。
- 4TBのプレーンテキストと知識グラフを組み合わせたデータで訓練された10Bパラメータの ERNIE 3.0モデルを構築。
- 広範なNLPベンチマーク(54の中国語タスク)と英語のSuperGLUEにおいて、最先端モデルを上回る改善を示す。
- 段階的訓練、マルチタスク目的などの訓練戦略と、知識強化事前学習を大規模に効率的に行うデータ整備手法を提供。
提案手法
- 基盤となる特徴を共有しつつ、タスク固有の最上位表現を学習するために、共有のUniversal Representation Moduleと2つのタスク固有Representation Modules(NLUとNLG)を提案。
- backboneは長距離依存をモデル化するために Transformer-XL を用い、Universal Module の補助メモリを持つ;NLU は双方向エンコード、NLG はタスク固有モジュールで単方向エンコードを用いる。
- 語彙認識型(知識マスキング言語モデリング)、構造認識型(文の並べ替え、文間距離)、知識認識型(UKTP: universal knowledge-text prediction)、生成のための文書レベル言語モデリングを含む事前学習タスクのセットを用いる。
- 共有エンコーダーとタスク固有デコーダーを用いたマルチタスク事前学習を可能にする継続的マルチパラダイム学習を取り入れ、下流タスクへのゼロショット・ few-shot・ファインチューニングを可能にする。
- データ: 4TBの中国語コーパスで、プレーンテキストと百度知識グラフを組み合わせる; 重複排除、フィルタリング、分割等の手順でデータ品質を向上。
- 事前学習設定: 共有モジュールには48層のユニバーサル Transformer-XL(隠れ層4,096、ヘッド64)を使用し、タスク固有モジュールは12層(隠れ層768、ヘッド12); 全体で10Bパラメータ; 6144台の NVIDIA V100 GPU 上で 375B トークンを PaddlePaddle を用いて訓練; メモリとシーケンス長の配慮を伴う段階的訓練。
実験結果
リサーチクエスチョン
- RQ1知識強化された事前学習フレームワークは、大規模なスケールで言語理解と生成タスクの両方を改善できるか。
- RQ2自己回帰と自己符号化の目的を継続的なマルチタスク学習と融合することで、下流タスクに対して単一パラダイムの事前学習よりも良い表現を生み出すか。
- RQ3プレーンテキストと知識グラフを組み合わせた場合、10Bパラメータモデルの多様なNLPベンチマークでの性能にどのような影響があるか。
- RQ4共有されたユニバーサル表現とタスク固有モジュールから始めたとき、逐次的でタスク固有のファインチューニングはどのように振る舞うか。
主な発見
- ERNIE 3.0 は 54 の中国語NLPベンチマークで最先端の結果を達成し、強力なベースラインを大きく上回る。
- The English version of ERNIE 3.0 ranks first on the SuperGLUE benchmark at the time of reporting (90.6% vs. 89.8% human parity).
- The unified framework enables zero-shot, few-shot, and fine-tuning paradigms for both NLU and NLG tasks.
- The combination of large-scale knowledge integration with continual multi-paradigms pre-training yields strong improvements over prior models on both understanding and generation tasks.
- Progressive training and a large, high-quality corpus with a knowledge graph contribute to training stability and performance gains.
- The model demonstrates robust performance across a wide range of tasks, including sentiment analysis, natural language inference, reading comprehension, named entity recognition, and generation tasks.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。