QUICK REVIEW

[論文レビュー] Yuan 1.0: Large-Scale Pre-trained Language Model in Zero-Shot and Few-Shot Learning

Shaohua Wu, Xudong Zhao|arXiv (Cornell University)|Oct 10, 2021

Topic Modeling参考文献 19被引用数 25

ひとこと要約

Yuan 1.0 は、245B の singleton 言語モデルで、巨大規模の分散トレーニングによって学習され、ゼロショットおよび少数ショットの性能を高く達成します。5TB の高品質中国語コーパスとキャリブレーション/ラベル展開技術の助けを得ています。

ABSTRACT

Recent work like GPT-3 has demonstrated excellent performance of Zero-Shot and Few-Shot learning on many natural language processing (NLP) tasks by scaling up model size, dataset size and the amount of computation. However, training a model like GPT-3 requires huge amount of computational resources which makes it challengeable to researchers. In this work, we propose a method that incorporates large-scale distributed training performance into model architecture design. With this method, Yuan 1.0, the current largest singleton language model with 245B parameters, achieves excellent performance on thousands GPUs during training, and the state-of-the-art results on NLP tasks. A data processing method is designed to efficiently filter massive amount of raw data. The current largest high-quality Chinese corpus with 5TB high quality texts is built based on this method. In addition, a calibration and label expansion method is proposed to improve the Zero-Shot and Few-Shot performance, and steady improvement is observed on the accuracy of various tasks. Yuan 1.0 presents strong capacity of natural language generation, and the generated articles are difficult to distinguish from the human-written ones.

研究の動機と目的

大規模分散トレーニングをモデルアーキテクチャへ統合して、245B の singleton 言語モデルを実現できることを Demonstrate する。
事前学習のためにデータサンプリングを妥協せず、5TB の高品質中国語コーパスを構築・活用する。
アーキテクチャ設計、事前学習とゼロ-/少数ショットの性能の相互作用を調査し、ゼロ-/少数ショットの結果を改善するためのキャリブレーション/ラベル展開を導入する。

提案手法

三次元並列性（テンソル、パイプライン、データ）を採用して、数千GPU上で245Bパラメータモデルを訓練する。
Language Model (LM) と Prefix Language Model (PLM) アーキテクチャを比較し、それらのゼロショットおよび少数ショット挙動を分析する。
多元的ソースから5TBの高品質中国語コーパスを構築する Massive Data Filtering System (MDFS) を開発する。
キャリブレーションとラベル展開を適用して、ゼロショットおよび少数ショットタスクにおける文脈内学習のバイアスを軽減する。

実験結果

リサーチクエスチョン

RQ1非常に大きな singleton LM の訓練を効率的に実現するために、モデルアーキテクチャと分散トレーニング設計をどのように調整できるか。
RQ2事前学習に適した5TBの高品質中国語コーパスを得るためのデータ処理・フィルタリング戦略は何か。
RQ3LMとPLMのアーキテクチャはゼロショットおよび少数ショット設定でどのような性能を示し、キャリブレーションはこれをどう改善できるか。
RQ4キャリブレーションとラベル展開は、CLUE様似のタスクにおけるゼロショット/文本プロンプト性能をどの程度改善するか。

主な発見

Yuan 1.0 は、数千GPU上で訓練された245Bパラメータの singleton モデルで、2128-GPUクラスタ上の理論ピークの45%に相当する安定した性能を示す。
5TB の高品質中国語コーパスは、データセットを二度サンプリングすることなく事前学習を可能にし、複数の大規模中国語コーパスを規模で凌駕する。
キャリブレーションとラベル展開は、特定タスク（例：Eprstmt、Tnews、Csldcp）におけるゼロショット精度を大幅に改善し、ラベル分布のバイアスを低減する。
ゼロショットでは LM および PLM の変種が強力な文脈内学習を実現し、複数の ZeroCLUE タスクで公開SOTAを超えることが多い。少数ショットでは、キャリブレーションは効果的だが大きなクラス数がいくつかのデータセットでゲインを妨げる。
Yuan 245B は同時代のモデルと比較して生成および QA 能力で競争力があるか、あるいは優れており、WebQA や CMRC2018 などのタスクでゼロショット生成の顕著な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。