Skip to main content
QUICK REVIEW

[論文レビュー] LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning

Yi-Lin Sung, Jaemin Cho|arXiv (Cornell University)|Jun 13, 2022
Domain Adaptation and Few-Shot Learning被引用数 79
ひとこと要約

階段状サイドチューニング(LST)は、ラダーを介して中間バックボーン活性を利用する軽量サイドネットワークを訓練し、大規模バックボーンをバックプロパゲーションを介さずにパラメータとメモリ効率の高い転移学習を可能にします。

ABSTRACT

Fine-tuning large pre-trained models on downstream tasks has been adopted in a variety of domains recently. However, it is costly to update the entire parameter set of large pre-trained models. Although recently proposed parameter-efficient transfer learning (PETL) techniques allow updating a small subset of parameters (e.g. only using 2% of parameters) inside a pre-trained backbone network for a new task, they only reduce the training memory requirement by up to 30%. This is because the gradient computation for the trainable parameters still requires backpropagation through the large pre-trained backbone model. To address this, we propose Ladder Side-Tuning (LST), a new PETL technique that can reduce training memory requirements by more substantial amounts. Unlike existing parameter-efficient methods that insert additional parameters inside backbone networks, we train a ladder side network, a small and separate network that takes intermediate activations as input via shortcut connections (called ladders) from backbone networks and makes predictions. LST has significantly lower memory requirements than previous methods, because it does not require backpropagation through the backbone network, but instead only through the side network and ladder connections. We evaluate our method with various models (T5 and CLIP-T5) on both NLP (GLUE) and vision-and-language (VQA, GQA, NLVR2 , MSCOCO) tasks. LST saves 69% of the memory costs to fine-tune the whole network, while other methods only save 26% of that in similar parameter usages (hence, 2.7x more memory savings). Moreover, LST achieves higher accuracy than Adapter and LoRA in a low-memory regime. To further show the advantage of this better memory efficiency, we also apply LST to larger T5 models, attaining better GLUE performance than full fine-tuning and other PETL methods. The accuracy-efficiency trade-off also holds on VL tasks.

研究の動機と目的

  • 大規模な事前学習済みモデルに対するメモリ効率およびパラメータ効率の高い転移学習を動機づける。
  • 訓練中にバックボーンを介したバックプロパゲーションを避けるサイドネットワーク手法を提案する。
  • サイドネットワークの構造的重み初期化とレイヤードロップによって効率性を高める。
  • NLP(GLUE)およびビジョン-言語タスク(VQA、GQA、NLVR2、MSCOCO)上でLSTを評価し、PETLベースラインと比較する。
  • より大きなバックボーン(T5-large、T5-3B)へのスケーラビリティを示し、メモリ節約を示す。

提案手法

  • 凍結されたバックボーンfからのラダー接続を介して中間のバックボーン活性を取り込むラダーサイドネットワークgを訓練する。
  • 次元を削減したサイドネットワークを用い(r倍でダウンサンプリング)、各層で学習可能なゲートμiを用いてバックボーンとサイド表現を混合する。
  • サイドネットワークの重みをバックボーンからの構造的プルーニング(Fisher情報量または重みの大きさ)を用いて d_out/r 行、d_in 列へ初期化する。
  • メモリとパラメータをさらに削減するために、サイドネットワークの層を任意にドロップする(Layer Dropping)。
  • 訓練中、バックボーンを介さず、サイドネットワークとラダーのみを通じてバックプロパゲーションが行われるため、メモリ使用量を削減する。
  • エンコーダーのみおよびエンコーダー-デコーダーのバリアントを提供し、活性のダウンサンプリング/アップサンプリングのための線形射影と並列可能なフォワードパスを用意する。

実験結果

リサーチクエスチョン

  • RQ1Ladder side-tuningは、フルファインチューニングや他のPETL手法と比較して訓練メモリを削減しつつ競争力のあるタスク性能を達成できるか。
  • RQ2構造的初期化とレイヤードロップは、NLPおよびVLタスクにおけるLSTの性能と効率にどう影響を与えるか。
  • RQ3LSTをより大きなバックボーン(例:T5-large、T5-3B)にスケールさせてもメモリの利点を維持できるか。
  • RQ4バックボーンの中間活用のためのラダー接続とゲーティングの影響は、タスク適応にどの程度効を奏するか。

主な発見

  • LSTはバックボーンを介したバックプロパゲーションを回避することで訓練メモリを削減し、GLUEでのフルファインチューニングに比べて最大69%のメモリ節約を達成し、低メモリ域でアダプターや LoRAと同等かそれ以上の精度を示す。
  • プルーニングされたバックボーン重み(Fisher情報量または重みの大きさを使用)でサイドネットワークを初期化することは、サイドネットワークのサイズを問わず性能を向上させる。
  • サイドネットワークでのレイヤードロップは、性能の低下ほとんどなしに効率を大幅に高める。
  • LSTはより大きなモデル(T5-large、T5-3B)へスケールし、同等のメモリ予算下でフルファインチューニングおよび他のPETL手法より高いGLUE性能を達成する。
  • 視覚-言語タスクでは、LSTは競争力のある精度を、はるかに低いメモリ使用量(約2.7倍のメモリ節約)で達成し、16GBのGPUに収まり、学習可能パラメータは約7.5%程度である。
  • 中間のショートカットと初期化戦略の有効性を示すアブレーション結果が得られ、蒸留ベースやプルーニングベースの初期化も同様の精度をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。