Skip to main content
QUICK REVIEW

[論文レビュー] Towards a Unified View of Parameter-Efficient Transfer Learning

Junxian He, Chunting Zhou|arXiv (Cornell University)|Oct 8, 2021
Topic Modeling参考文献 36被引用数 279
ひとこと要約

本論は、最先端のパラメータ効率の高い転移学習手法を、凍結された事前学習モデルの隠れ状態の修正として再定義することによって統合し、複数のNLPタスクにおいてフルファインチューニングと同等の性能を、はるかに少ない調整可能パラメータ数で達成する新しい変種を示す。

ABSTRACT

Fine-tuning large pre-trained language models on downstream tasks has become the de-facto learning paradigm in NLP. However, conventional approaches fine-tune all the parameters of the pre-trained model, which becomes prohibitive as the model size and the number of tasks grow. Recent work has proposed a variety of parameter-efficient transfer learning methods that only fine-tune a small number of (extra) parameters to attain strong performance. While effective, the critical ingredients for success and the connections among the various methods are poorly understood. In this paper, we break down the design of state-of-the-art parameter-efficient transfer learning methods and present a unified framework that establishes connections between them. Specifically, we re-frame them as modifications to specific hidden states in pre-trained models, and define a set of design dimensions along which different methods vary, such as the function to compute the modification and the position to apply the modification. Through comprehensive empirical studies across machine translation, text summarization, language understanding, and text classification benchmarks, we utilize the unified view to identify important design choices in previous methods. Furthermore, our unified framework enables the transfer of design elements across different approaches, and as a result we are able to instantiate new parameter-efficient fine-tuning methods that tune less parameters than previous methods while being more effective, achieving comparable results to fine-tuning all parameters on all four tasks.

研究の動機と目的

  • 既存のパラメータ効率チューニング手法を分解し、接続する。
  • タスク横断で有効性にとって重要な設計要素を特定する。
  • 手法間の設計選択を移転する統一フレームワークを提案する。
  • 性能を維持しつつパラメータ数を削減した新しい変種を具現化し評価する。

提案手法

  • 凍結された事前学習済み言語モデルの隠れ表現への変更として、パラメータ効率チューニング手法を再定義する。
  • 設計次元を定義する:変更の機能形、変更の位置、および元の表現との統合/組み合わせ。
  • 等価性を示す(例:prefix tuning と adapters)し、multi-head parallel adapters や scaled parallel adapters などの変種を導入する。
  • 設計要素を手法間で移転させて新しい手法を実装し、複数のNLPタスクで評価する。

実験結果

リサーチクエスチョン

  • RQ1パラメータ効率チューニング手法は、統一されたフレームワーク内でどのように結びつくか?
  • RQ2これらの手法の有効性に不可欠な設計要素は何か?
  • RQ3有用な要素を他の手法間で移転して、より良い変種を作ることは可能か?
  • RQ4新しい変種は、さまざまなリソース予算の下で既存のアプローチを上回るか?

主な発見

  • 既存の手法は、いくつかのタスクでチューニングされたパラメータが1%未満で競争力のある結果を示す一方、XSum や en-ro MT のような高リソースタスクではギャップが残る。
  • 並列挿入(prefix tuning におけるような)は、一般に逐次的な adapters より優れており、並列 adapters はしばしば逐次より優れる。
  • FFN の変更はアテンションの変更より一貫して優れており、FFN への予算を増やすべきことを示唆している。
  • 多頭並列アダプタ(MH PA)と Mix-And-Match アダプタ(MAM Adapter)は高い性能を達成し、XSumと MT で約6.7%のパラメータを調整するだけでフルファインチューニングと同等を達成し、MNLI/SST2 では約0.5%で同等となる。
  • 設計要素のスケーリングと組み合わせ(例:prefix tuning と FFN 重視のスケーリング)を行うことで、統一フレームワーク内で最先端の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。