[論文レビュー] UL2: Unifying Language Learning Paradigms
UL2はMixture-of-Denoisers (MoD)とモード切替を用いた統一的事前学習フレームワークを提案し、さまざまなNLPタスクで普遍的な性能を達成。20Bパラメータ規模までのスケールでT5やGPT型モデルを上回る。
Existing pre-trained models are generally geared towards a particular class of problems. To date, there seems to be still no consensus on what the right architecture and pre-training setup should be. This paper presents a unified framework for pre-training models that are universally effective across datasets and setups. We begin by disentangling architectural archetypes with pre-training objectives -- two concepts that are commonly conflated. Next, we present a generalized & unified perspective for self-supervision in NLP and show how different pre-training objectives can be cast as one another and how interpolating between different objectives can be effective. We then propose Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse pre-training paradigms together. We furthermore introduce a notion of mode switching, wherein downstream fine-tuning is associated with specific pre-training schemes. We conduct extensive ablative experiments to compare multiple pre-training objectives and find that our method pushes the Pareto-frontier by outperforming T5 & GPT-like models across multiple diverse setups. By scaling our model up to 20B parameters, we achieve SOTA performance on 50 well-established supervised finetuning based NLP tasks. Our model also achieve strong results at in-context learning, outperforming 175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on one-shot summarization. On 0-shot MMLU, UL2 20B outperforms T0 and T5 models. UL2 20B also works well with chain-of-thought prompting and reasoning, making it an appealing choice for research into reasoning at a small to medium scale of 20B parameters. Finally, we apply FLAN instruction tuning to the UL2 20B model, achieving MMLU and Big-Bench scores competitive to FLAN-PaLM 62B. We release Flax-based T5X checkpoints for the UL2 20B & Flan-UL2 20B.
研究の動機と目的
- さまざまな下流タスクと設定で良好に機能する普遍的に有効な事前学習済み言語モデルの必要性を動機づける。
- 事前学習 objectivesとアーキテクチャの分離、objective設計がバックボーンより影響力があることを示す。
- Mixture-of-Denoisers (MoD)を導入し、異なるデノイジングObjectiveを混合して強いクロス・タスク転移を可能にする。
- モード切替を導入し下流のファインチューニングを特定の事前学習スキームに結び付け、適応性を高める。
- 20Bパラメータへ拡張し、広範なタスク群でSOTAを達成し、ゼロショット/少数ショット性能を有利に。
提案手法
- 因果LM、Prefix LM、スパン破損を特別な場合として包含する統一の入力-to-target denoising定式化を定義する。
- Mixture-of-Denoisers (R-Denoiser, S-Denoiser, X-Denoiser)を導入し、普遍モデルを訓練する7-denoiser混合を設定する。
- 前訓練と下流タスクでR、S、Xデノイザーを動的に選択する sentinel tokens を介してモード切替を組み込む。
- デコーダーのみ・エンコーダー・デコーダーの丼 BackboneをサポートしつつT5風のTransformer Backboneを維持し、アーキテクチャに依存しない姿勢を保持する。
- 32Bトークンを500kステップでC4データを用いて事前訓練し、SuperGLUE、GEM、XSUM、ToTTo、SGDを含む50以上のタスクで評価し、GPT様式、T5、UniLMなどのベースラインと比較する。
- ~20Bパラメータへスケールアップし、監督付きファインチューニング、プロンプトベース学習、チェーンオブ思考 prompting、FLAN様式の指示チューニングに及ぼす影響を評価する。
実験結果
リサーチクエスチョン
- RQ1単一の事前学習Objectiveとアーキテクチャで、判別的ファインチューニングとプロンプトベース生成タスクの両方で競争力のある性能を得られるか?
- RQ2異なるデノイジングObjectiveはどのように相補い、混合(MoD)が標準の単一Objective事前学習を上回るか?
- RQ3モード切替は下流のファインチューニングを適切な事前学習スキームと効果的に整列させ、タスク全般の性能を向上させるか?
- RQ4UL2を20Bパラメータへスケールアップしたときの広範なNLPベンチマークでの性能向上はどの程度か?
- RQ5ゼロ/少数ショット設定と指示チューニングにおけるUL2の性能は、最先端モデルと比べてどうか?
主な発見
- UL2は supervised および one-shot設定で9/9タスクでT5型およびGPT型のベースラインを上回る。
- MoDとモード切替はゼロショットとファインチューニング性能のPareto効率的なバランスを可能にする。
- ~20Bパラメータでは、UL2は生成、理解、推論、グラウンディング、検索の広範なタスクでSOTAを達成。
- UL2のゼロショット SuperGLUEはGPT-175Bのゼロショット性能を上回り;1ショット要約はPaLM/LaMDAと同等以上を同程度の計算で達成。
- FLAN指示チューニングを用いたUL2はMMLUとBig-Benchの結果をFLAN-PaLM 62Bと競合させる;チェーン・オブ・思考 promptingは20Bスケールで効果的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。