QUICK REVIEW

[論文レビュー] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

Greg Yang, J. Edward Hu|arXiv (Cornell University)|Mar 7, 2022

Parallel Computing and Optimization Techniques被引用数 22

ひとこと要約

本論文は Mu Transfer を提案し、Maximal Update Parametrization（μP）を用いて小型の代理モデルからはゼロショット調整で大きなターゲットモデルへハイパーパラメータを転送し、巨大なスピードアップと競争力のある性能を達成します。

ABSTRACT

Hyperparameter (HP) tuning in deep learning is an expensive process, prohibitively so for neural networks (NNs) with billions of parameters. We show that, in the recently discovered Maximal Update Parametrization (muP), many optimal HPs remain stable even as model size changes. This leads to a new HP tuning paradigm we call muTransfer: parametrize the target model in muP, tune the HP indirectly on a smaller model, and zero-shot transfer them to the full-sized model, i.e., without directly tuning the latter at all. We verify muTransfer on Transformer and ResNet. For example, 1) by transferring pretraining HPs from a model of 13M parameters, we outperform published numbers of BERT-large (350M parameters), with a total tuning cost equivalent to pretraining BERT-large once; 2) by transferring from 40M parameters, we outperform published numbers of the 6.7B GPT-3 model, with tuning cost only 7% of total pretraining cost. A Pytorch implementation of our technique can be found at github.com/microsoft/mup and installable via `pip install mup`.

研究の動機と目的

非常に大規模なニューラルネットワークにおけるハイパーパラメータ調整が主要なボトルネックとなることを動機づける。
訓練中の安定した、幅に不変な更新を可能にする Maximal Update Parametrization（μP）を導入・活用する。
小さな代理モデルから大きなターゲットモデルへゼロショットのハイパーパラメータ転送技術（μ Transfer）を開発・検証する。
TransformersおよびResNetで、大規模言語モデルやビジョンモデルを含む実世界タスクにおいて、 substantial な調整速度改善と性能向上を示す。

提案手法

ターゲットモデルに対して幅依存性のある安定な更新を保証するために Maximal Update Parametrization（μP）を採用する。
ハイパーパラメータを特定するために、ターゲットモデルのより小さな代理バージョンをチューニングする。
代理モデルでチューニングしたハイパーパラメータを完全規模のターゲットモデルへコピーする（ゼロショット転送）。
幅・深さ・バッチサイズ・シーケンス長・訓練時間にわたるTransformerおよびResNetのアーキテクチャで μ Transfer を経験的に検証する。
実務的な利用のための μ Transfer の PyTorch 実装を提供する。

実験結果

リサーチクエスチョン

RQ1μP パラメータ化モデルの小規模で調整されたハイパーパラメータが、はるかに大きな μP パラメータ化ターゲットモデルへ効果的に転送できるか？
RQ2μP の下でどのハイパーパラメータが転送可能で、幅・深さ・バッチサイズ・シーケンス長・訓練時間の転送の限界はどこにあるか？
RQ3標準のパラメータ化（SP）での幅依存的な失敗は μP の下で解消され、信頼できるスケーリングルールを可能にするか？
RQ4μ Transfer によって、現実のタスク（機械翻訳、言語モデルの事前学習、画像分類）でどのような実用的な速度アップと性能向上が得られるか？

主な発見

μP は安定で幅に対して不変な最適学習率を生み出し、小規模モデルから大規模モデルへのハイパーパラメータのゼロショット転送を可能にする。
経験的な結果は大規模なスピードアップを示し、単一の BERT-large の事前学習コストと同程度のチューニングコストで公開済みの BERT-large の数値を上回り、GPT-3規模の結果を、総事前学習コストのわずか 7% で上回る。
μ Transfer は幅を跨いで機能し、深さ・バッチサイズ・シーケンス長・訓練時間に関しては注意点はあるものの、Transformers、ResNet のアーキテクチャにも効果が見られる。
IWSLT14 De-En および WMT14 En-De の実験では、小型 proxy からの μ Transfer が従来のチューニングと比べて大幅に低い計算量で競争力のある BLEU スコアを達成する。SP でのナイーブ転送は失敗する。
BERT の事前学習実験では、約13M パラメータの proxy からの μ Transfer が、全体のチューニングコストは同じで、公開ベースラインを回復・上回る成果を示し、非常に大規模なモデルでも実用的な実現性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。