[論文レビュー] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
GradNorm は動的に勾配の大きさを調整する勾配ベースの損失項によってマルチタスク学習を自動的にバランスさせ、過適合を抑制し、単一の非対称性超パラメータ α によるグリッド探索の性能と一致させる。
Deep multitask networks, in which one neural network produces multiple predictive outputs, can offer better speed and performance than their single-task counterparts but are challenging to train properly. We present a gradient normalization (GradNorm) algorithm that automatically balances training in deep multitask models by dynamically tuning gradient magnitudes. We show that for various network architectures, for both regression and classification tasks, and on both synthetic and real datasets, GradNorm improves accuracy and reduces overfitting across multiple tasks when compared to single-task networks, static baselines, and other adaptive multitask loss balancing techniques. GradNorm also matches or surpasses the performance of exhaustive grid search methods, despite only involving a single asymmetry hyperparameter $α$. Thus, what was once a tedious search process that incurred exponentially more compute for each task added can now be accomplished within a few training runs, irrespective of the number of tasks. Ultimately, we will demonstrate that gradient manipulation affords us great control over the training dynamics of multitask networks and may be one of the keys to unlocking the potential of multitask learning.
研究の動機と目的
- 深層マルチタスクネットワークの訓練におけるタスク間の勾配の不均衡という課題を動機づける。
- 勾配の大きさを損失重みを通じて調整することでタスク訓練をバランスさせる GradNorm を提案する。
- GradNorm が synthetic および real data の回帰および分類タスクにおけるマルチタスク性能を改善することを示す。
- GradNorm が最小限のハイパーパラメータ調整でグリッド探索に基づくベースラインと同等以上を達成できることを示す。
提案手法
- タスク固有の勾配ノルム G_W^(i)(t) とタスク間の平均勾配ノルムを定義する。
- 各タスクのターゲット勾配ノルムを G_W^(i)(t) ≈ \n¯G_W(t) * [r_i(t)]^α として導入する。ここで r_i(t) は相対的逆訓練速度であり、α はハイパーパラメータである。
- 勾配損失 L_grad(t; w_i(t)) = Σ_i | G_W^(i)(t) − ¯G_W(t) * [r_i(t)]^α |1 を定義し、 differentiation 時に ¯G_W(t) を固定したまま L_grad を最小化するように w_i(t) を最適化する。
- 各更新後にウェイト w_i(t) を正規化して Σ_i w_i(t) = T とする。
- 全損失 L(t) = Σ_i w_i(t)L_i(t) を用いてネットワークパラメータ W を更新するために標準的なバックプロパゲーションを適用する。
- 計算量を削減するため、勾配正規化には最後に共有層 W を用いる。
実験結果
リサーチクエスチョン
- RQ1深層ネットワークにおける多様なマルチタスク目的間で訓練をバランスさせることができるか?
- RQ2精度と過剰適合の観点から、GradNorm は静的重み付けや不確実性ベースの重み付けアプローチとどう比較されるか?
- RQ3非対称性ハイパーパラメータ α が訓練ダイナミクスと最終的な性能に与える影響は何か?
- RQ4GradNorm は網羅的なグリッドサーチなしでほぼ最適な静的損失重みを回復できるか?
主な発見
- GradNorm は synthetic データと実データセットの回帰および分類タスク全体でマルチタスクのテスト時性能を改善する。
- GradNorm は単一タスクネットワークと同等以上にマッチさせ、静的重み付けおよび不確実性ベースのベースラインをいくつかの設定で上回る。
- この手法は α という1つのハイパーパラメータの調整のみが必要であり、単一の訓練走行で最適なグリッド探索重みをエミュレートできる。
- 時間平均 GradNorm 重み E_t[w_i(t)] は最適な静的重みと密接に一致し、効果的な静的重み推定を可能にする。
- GradNorm は訓練中にタスク間の勾配寄与を積極的にバランスさせることで過学習を抑制できる。
- GradNorm は NYUv2 データセット内の異なるアーキテクチャ(例:VGG SegNet および ResNet ベースの FCN)とタスクに対して頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。