QUICK REVIEW

[論文レビュー] No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models

Jean Kaddour, Oscar Key|arXiv (Cornell University)|Jul 12, 2023

Topic Modeling被引用数 8

ひとこと要約

論文は、固定計算予算の下で Transformer ベースの言語モデルの3つの効率的な学習方法のファミリを評価し、壁時計比較を標準化するための Reference System Time (RST) を導入する。ほとんどの方法は、予算とアーキテクチャを跨いで、完全に減衰した学習率のベースラインを上回らない。

ABSTRACT

The computation necessary for training Transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work, we revisit three categories of such algorithms: dynamic architectures (layer stacking, layer dropping), batch selection (selective backprop, RHO loss), and efficient optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed computation budget using such methods, we find that their training, validation, and downstream gains vanish compared to a baseline with a fully-decayed learning rate. We define an evaluation protocol that enables computation to be done on arbitrary machines by mapping all computation time to a reference machine which we call reference system time. We discuss the limitations of our proposed protocol and release our code to encourage rigorous research in efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain.

研究の動機と目的

動的アーキテクチャ、バッチ選択、または効率的なオプティマイザが、Transformer ベースのLMの固定計算予算下でトレーニング速度や性能向上をもたらすかを評価する。
公平な横断ハードウェア比較を可能にするため、計算を Reference System Time (RST) にマッピングする標準化評価プロトコルを提案する。
モデルタイプ（BERT-Base、T5-Base）、予算（6h、12h、24h）、データセットを横断して方法を体系的に比較し、いつ改善が起こるかを理解する。
反復ごとのコストと学習率スケジュールが、早期停止や予算化学習とどのように相互作用して下流の性能に影響を与えるかを調査する。
効率的な学習研究を厳密で再現性のあるものとするためのオープンソースツールと評価プロトコルを提供する。

提案手法

効率的学習方法を動的アーキテクチャ（層積み、層ドロップ）、バッチ選択（選択的バックプロパ、RHO 損失）、効率的オプティマイザ（Lion、Sophia）に分類する。
RST を時間指標として導入：参照システムでの反復時間を計算し、予算付き比較のために任意のハードウェアへスケールする。
固定されたRST予算下で BERT-Base様似および T5-Base様似モデルを事前学習し、GLUE、SuperGLUE、SNI の下流ベンチマークで評価する。
事前学習損失に基づいて各方法のハイパーパラメータを調整し、固定RST予算の末尾の最終パフォーマンスを中間のチェックポイントではなく比較する。
予算（RST）を測定するのと同じ単位で学習率スケジュールを整列させるプロトコルを提供する。
提供された GitHub リポジトリで評価フレームワークの再現と拡張のコードを公開する。

Figure 2 : BERT models evaluated on SuperGLUE. The black vertical error bars indicate the standard deviation over three seeds. The black horizontal line shows the baseline average performance. For clarity, the individual tasks are plotted against the left-hand axis, while the average accuracy is plo

実験結果

リサーチクエスチョン

RQ1固定計算予算下で Transformer モデルを事前学習する際、動的アーキテクチャ、バッチ選択法、または効率的オプティマイザは完全に減衰した学習率ベースラインより一貫した改善をもたらすか。
RQ2提案された Reference System Time (RST) は、方法やハードウェア間のトレーニングスピードアップを公正かつハードウェア非依存な基準として提供するか。
RQ3BERT-Base および T5-Base の事前学習設定において、6h、12h、または24h の予算で、トレーニング損失、検証損失、または下流タスクの性能向上を提供する方法はあるか。
RQ4反復ごとのコストと学習率スケジュールは、観測されるスピードアップと下流の結果にどのように影響するか。

主な発見

層積みは小さな予算内でトレーニング損失をベースラインより改善できるが、予算が24時間に達するとこの利点は薄れる。
層ドロップは予算とモデルを跨いで一貫してベースラインを下回る。
選択的バックプロパと RHO 損失は、検証損失でベースラインを上回ることはまれで、データセット全体で見られない。
24時間予算の場合、評価された方法のいずれも GLUE や SNI の下流パフォーマンスをベースラインと比較して改善しない。
反復ごとのコストが低い方法は短い予算でわずかな下流の利得を示すことがあるが、長い予算では利得は消える。
効率的オプティマイザ（Lion、Sophia）は、試験条件下で一般的に AdamW ベースラインと同等か、それ以下の下流タスクの成績。

Figure 3 : Validation losses for different datasets . Results for batch selection methods ( selective backprop and RHO loss ) for a 12-hour RST budget.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。