QUICK REVIEW

[論文レビュー] VeRA: Vector-based Random Matrix Adaptation

Dawid Jan Kopiczko, Tijmen Blankevoort|arXiv (Cornell University)|Oct 17, 2023

Domain Adaptation and Few-Shot Learning被引用数 8

ひとこと要約

VeRA は凍結されたランダムマトリクスをレイヤー間で共有し、学習可能な小さなスケーリングベクトルを学習することでファインチューニングパラメータを削減し、NLP、ビジョン、指示フォロータスク全般において LoRA と同等の性能を、はるかに小さい trainable parameters 数で達成します。

ABSTRACT

Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which significantly reduces the number of trainable parameters compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, image classification tasks, and show its application in instruction-tuning of 7B and 13B language models.

研究の動機と目的

大規模事前学習モデル（LLMs、ビジョン、指示チューニング用途）における超パラメータ効率のファインチューニングの必要性を動機づける。
学習可能なパラメータを大幅に削減しつつ競争力あるまたはそれ以上の性能を維持する VeRA を提案する。
NLP ベンチマーク（GLUE）、生成タスク（E2E）、画像分類（ViT）、指示フォロー設定の適用性を示す。
VeRA の各成分と初期化の寄与を理解するためのアブレーションを提供する。

提案手法

すべての適応層間で共有される1組のランダムマトリクスを凍結する。
凍結マトリクスの周囲に diagonal なスケーリング（Lambda_b と Lambda_d）として機能する学習可能なスケーリングベクトルを導入し、層ごとの適応を可能にする。
形式的には h = W0 x + Lambda_b B Lambda_d A x、ここで A と B は凍結/ランダムで共有、b と d（Lambda_b と Lambda_d 内）は学習可能。
学習可能パラメータを元の重みへ再結合して推論遅延を増加させないようにする。
初期化戦略を提供：A と B には Kaiming 初期化、b にはゼロ、d には制御された初期化を採用。探索される d_init 値には 0.1 や 1e-7 などを含む。

Figure 1: Schematic comparison of LoRA (left) and VeRA (right). LoRA updates the weights matrix $W$ by training the low-rank matrices $A$ and $B$ , with intermediate rank $r$ . In VeRA these matrices are frozen, shared across all layers, and adapted with trainable vectors $d$ and $b$ , substantially

実験結果

リサーチクエスチョン

RQ1VeRA は NLP、ビジョン、指示チューニングタスクで LoRA および他のベースラインと比較してどの程度の性能を示すか？
RQ2VeRA を LoRA と比較した場合、ランクの変化に伴うパラメータ効率のトレードオフはどうなるか？
RQ3初期化とスケーリングベクトルの選択は VeRA の性能と安定性にどう影響するか？
RQ4共有された凍結ランダムマトリクスは層間・タスク間でうまく一般化できるか、共有と個別のマトリクスの影響はどうか？

主な発見

Method	# Trainable Parameters	SST-2	MRPC	CoLA	QNLI	RTE	STS-B	Avg
LoRA (RoBERTa base)	0.3M	95.1 ±0.2	89.7 ±0.7	63.4 ±1.2	93.3 ±0.3	86.6 ±0.7	91.5 ±0.2	86.6
VeRA (RoBERTa base)	0.043M	94.6 ±0.1	89.5 ±0.5	65.6 ±0.8	91.8 ±0.2	78.7 ±0.7	90.7 ±0.2	85.2
LoRA (RoBERTa large)	0.8M	96.2 ±0.5	90.2 ±1.0	68.2 ±1.9	94.8 ±0.3	85.2 ±1.1	92.3 ±0.5	87.8
VeRA (RoBERTa large)	0.061M	96.1 ±0.1	90.9 ±0.7	68.0 ±0.8	94.4 ±0.2	85.9 ±0.7	91.7 ±0.8	87.8

VeRA は GLUE で LoRA に対して競争的な性能を示しつつ、学習可能パラメータを約1桁違いの少数に削減（例: RoBERTa base の場合 0.3M 対 0.043M）。
E2E GPT-2 Medium/Large では VeRA が LoRA を上回り、それぞれ 3 倍および 4 倍少ない trainable parameters。
LlaMA（Llama）および Llama2 モデルの指示チューニングでは、VeRA は LoRA より同等またはそれ以上の結果を、約100倍少ない trainable parameters で達成（例: 1.6M/2.4M vs 159.9M/250.3M）。
Vision Transformer 実験では、VeRA は ViT-Base で LoRA に接近し、ViT-Large では複数データセットで LoRA を上回り、学習可能パラメータが10 倍以上少ない。
スケーリング実験では VeRA はパラメータ効率が著しく高いままで、LoRA と同等のパラメータ数で VeRA が数ポイントの精度で上回る場合がある（RTE）。
アブレーション研究は、最適性能にはスケーリングベクトル d と b の両方が必要であり、初期化選択（Kaiming、d_init）が結果に実質的な影響を与えることを確認した。

Figure 2: Performance of LoRA and VeRA methods for varying ranks on RTE task.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。