[論文レビュー] Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers
この論文は実証的に Transformer の事前学習と微調整のスケーリングを研究し、モデルの形状が下流の転移に影響を与えること、スケーリング効果が計算領域によって異なること、パレート効率の高いモデルでより少ないパラメータと高速な訓練を実現する DeepNarrow スケーリングを提案することを示している。
There remain many open questions pertaining to the scaling behaviour of Transformer architectures. These scaling decisions and findings can be critical, as training runs often come with an associated computational cost which have both financial and/or environmental impact. The goal of this paper is to present scaling insights from pretraining and finetuning Transformers. While Kaplan et al. presents a comprehensive study of the scaling behaviour of Transformer language models, the scope is only on the upstream (pretraining) loss. Therefore, it is still unclear if these set of findings transfer to downstream task within the context of the pretrain-finetune paradigm. The key findings of this paper are as follows: (1) we show that aside from only the model size, model shape matters for downstream fine-tuning, (2) scaling protocols operate differently at different compute regions, (3) widely adopted T5-base and T5-large sizes are Pareto-inefficient. To this end, we present improved scaling protocols whereby our redesigned models achieve similar downstream fine-tuning quality while having 50\% fewer parameters and training 40\% faster compared to the widely adopted T5-base model. We publicly release over 100 pretrained checkpoints of different T5 configurations to facilitate future research and analysis.
研究の動機と目的
- 上流の事前学習のスケーリングが下流の転移性能とどのように関連するかを評価する。
- モデルの形状(深さと幅)がタスク全体のファインチューニング結果にどのように影響するかを調査する。
- 異なる計算領域とモデルサイズにおけるスケーリング挙動を特徴付ける。
- Transformer を用いた転移学習における実用的で Pareto 効率の高いスケーリング戦略を特定する。
- 将来のスケーリング研究を促進するための事前訓練済みチェックポイントとツールを提供する。
提案手法
- T5 アーキテクチャに基づく相対注意を用いたエンコーダー-デコーダー Transformer を、tiny から XXXL までの幅広いサイズで用いる。
- Colossal Cleaned Common Crawl (C4) 上で span-based MLM を用い、TPU-v3 ハードウェアで 2^19 ステップの事前学習を行う。
- GLUE、SuperGLUE、SQuAD などを含む 17 の下流タスクでファインチューニングを行い、総合的な SuperGLUE 正解率を報告する。
- 深さ、幅、隠れ層サイズ、KV、ヘッド等のスケーリング演算を体系的に変化させ、上流の perplexity と下流の転移を測定する。
- パラメータ数、FLOPs、スループットの観点から効率を評価するため、構成の Pareto フロンティアを分析する。
- 100 件以上の事前学習済みチェックポイントを公開し、Vision Transformers (ViT) でのクロスドメイン検証を実施する。
実験結果
リサーチクエスチョン
- RQ1上流の事前学習で観察されるスケーリング挙動は、プリトレイン-ファインチューニング設定における下流の転移にも一般化するか。
- RQ2モデルの形状(深さ vs 幅)はタスク全体の下流転移性能にどのように影響するか。
- RQ3スケーリング戦略は異なる計算領域(小規模 vs 大規模)およびモダリティで同じ効率を生むか。
- RQ4下流の品質を犠牲にすることなく Pareto 効率を改善する実用的なスケーリングプロトコルを導出できるか。
- RQ5結果は NLP タスク全体で一貫しており、ViT のような視覚モデルへ転用可能か。
主な発見
- 下流の転移性能は、パラメータ数だけでなくモデルの形状に強く依存し、上流の傾向とは対照的である。
- 事前学習の perplexity は下流の品質を誤って予測することが多く、上流での利得が常に下流タスクに転移するとは限らない。
- T5-base/Large のような標準サイズは、適切に選択された代替構成と比べて Pareto 非効率である。
- スケーリング効果は計算領域によって異なり、小規模で効果的な戦略が大規模計算領域に一般化しないことがある。
- DeepNarrow scaling(深さを幅より優先)により、パラメータ数が少なく訓練速度が速いまま、下流性能が同等またはそれ以上の Pareto 効率の高いモデルが得られる。このアプローチは ViT への転用や GLUE/SuperGLUE/SQuAD 以外の追加 NLP タスクにも転用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。