QUICK REVIEW

[論文レビュー] Parameter-Efficient Transfer Learning for NLP

Neil Houlsby, Andrei Giurgiu|arXiv (Cornell University)|Feb 2, 2019

Topic Modeling参考文献 48被引用数 144

ひとこと要約

この論文は、NLPタスクのパラメータ効率の高い転移学習を可能にするTransformerモデルのアダプタモジュールを導入し、タスク固有パラメータのごく小さな割合でほぼ完全なファインチューニング性能を達成します。

ABSTRACT

Fine-tuning large pre-trained models is an effective transfer mechanism in NLP. However, in the presence of many downstream tasks, fine-tuning is parameter inefficient: an entire new model is required for every task. As an alternative, we propose transfer with adapter modules. Adapter modules yield a compact and extensible model; they add only a few trainable parameters per task, and new tasks can be added without revisiting previous ones. The parameters of the original network remain fixed, yielding a high degree of parameter sharing. To demonstrate adapter's effectiveness, we transfer the recently proposed BERT Transformer model to 26 diverse text classification tasks, including the GLUE benchmark. Adapters attain near state-of-the-art performance, whilst adding only a few parameters per task. On GLUE, we attain within 0.4% of the performance of full fine-tuning, adding only 3.6% parameters per task. By contrast, fine-tuning trains 100% of the parameters per task.

研究の動機と目的

sequential に到着する多くの NLP タスクに対するパラメータ効率の高い転移学習を動機づける。
事前学習済みの Transformer に挿入されるアダプタモジュールを提案し、コンパクトで拡張可能なタスク適応を実現する。
GLUE や他の NLP タスクで、パラメータのフットプリントを小さく保ちつつほぼ最先端の性能を達成できることを示す。

提案手法

各 Transformer サブレイヤーの後に挿入されるボトルネック型アダプタモジュールを導入する。アダプタは近似同一性初期化を持つ小さな訓練可能レイヤーである。
元のモデルパラメータを凍結し、アダプタパラメータとタスク固有のレイヤーノルムおよび分類ヘッドのみを訓練する。
パラメータ増加を制御するため、2層ボトルネック構成でアダプタを追加する（サイズ m、入力次元 d）。
Transformer 各層ごとに、入力サイズへの射影の後だが残差接続の前にアダプタを接続し、タスクごとにレイヤーノルムパラメータを訓練する。
GLUE と SQuAD で、訓練可能パラメータの小さな割合（元のモデルの各層で 0.5-8% まで）でほぼフルファインチューニングに近い性能を示す。
アダプタ-tuning をフルファインチューニングやトップレイヤーのみのファインチューニングと比較し、パラメータ効率の利点を示す。

実験結果

リサーチクエスチョン

RQ1アダプタモジュールは、モデルを再訓練せずに逐次的・タスクごとに学習を可能にするか。
RQ2アダプタ-tuning のパラメータ効率は、複数の NLP タスクにおいてフルファインチューニングと比較してどうか。
RQ3アダプタサイズが性能とパラメータ数のトレードオフに与える影響は何か。
RQ4アダプタは分類タスクを超えてSQuADのようなタスクにも一般化できるか。
RQ5アダプタを使用する際、どの層がタスク適応に最も寄与するか。

主な発見

Model	Total Params (×)	Trained Params / Task (%)	CoLA	SST	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI	RTE	Total GLUE Score
BERT LARGE	9.0×	100%	60.5	94.9	89.3	87.6	72.1	86.7	85.9	91.1	70.1	80.4
Adapters (8-256)	1.3×	3.6%	59.5	94.0	89.5	86.9	71.8	84.9	85.1	90.7	71.5	80.0
Adapters (64)	1.2×	2.1%	56.9	94.2	89.6	87.3	71.8	85.3	84.6	91.4	68.8	79.6

アダプタベースの微調整は、GLUEでフルファインチューニングの0.4%程度のトレーニングパラメータでほぼ同等の性能を達成。
GLUEと追加の17タスクにわたり、アダプタはタスク固有パラメータを大幅に削減しながらほぼ最先端の結果を示す（GLUE全体で1.3x、17タスク全体で1.19xの削減）。
アダプタサイズには明確なトレードオフがあり、非常に小さなアダプタ（パラメータの0.5-2%）でも強い性能を示し、上位層はタスク特異的になる傾向がある。
レイヤー正規化のみの訓練はアダプタよりもはるかに効果が低く、より深い表現の変更の利点を強調する。
SQuAD の結果は、非常に少ない訓練可能パラメータで競争力のある性能を示す（例：2% のアダプタでほぼ最高の F1。0.1% のアダプタでも強い結果を得られる）。
アブレーションは、アダプタが総じて性能向上を実現することを示唆し、高次の層がタスク適応により寄与することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。