QUICK REVIEW

[論文レビュー] A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA

Damjan Kalajdzievski|arXiv (Cornell University)|Nov 28, 2023

Ferroelectric and Negative Capacitance Devices被引用数 12

ひとこと要約

本論文は rsLoRA を導入する。LoRA アダプターの秩を安定化させるスケーリング因子 gamma_r ~ 1/sqrt(r) を提案し、このスケーリングが大規模なアダプタランクでの勾配崩壊を回避し、推論コストを増やすことなく高いランクでのファインチューニング性能を向上させることを理論的に検証・実証する。

ABSTRACT

As large language models (LLMs) have become increasingly compute and memory intensive, parameter-efficient fine-tuning (PEFT) methods are now a common strategy to fine-tune LLMs. A popular PEFT method is Low-Rank Adapters (LoRA), which adds trainable low-rank "adapters" to selected layers. Each adapter consists of a low-rank matrix product, multiplicatively scaled by a rank-dependent factor. This scaling factor, which divides adapters by a factor of the rank, results in slowed learning and stunted performance for LoRA with higher-rank adapters. Consequently, the use of LoRA in practice has generally been limited to very low ranks. In this work, we study the impact of the scaling factor on the learning process and prove that LoRA adapters should be divided by a factor of the square root of the rank. Modifying LoRA with the appropriate scaling factor, which we call the rank-stabilized LoRA (rsLoRA) method, easily provides for a fine-tuning compute/performance trade-off, where larger ranks can be used to trade off increased computational resources during training for better fine-tuning performance, with no change in inference computing cost.

研究の動機と目的

大規模言語モデルに対するパラメータ効率の高いファインチューニング（PEFT）を動機づけ、LoRA アダプターのスケーリング課題に対処する。
学習をアダプターのランク間で安定化させる理論的に根拠のあるスケーリング因子を導出する。
rsLoRA がより高いランクのファインチューニングで性能向上と安定した学習を実現することを実証的に検証する。
推論コストを増やすことなく、より高いアダプタランクを活用できることを示す。
既存のダイナミックランクPEFT手法と rsLoRA を統合する方向性を示す。

提案手法

アダプターを秩 r を持つ行列 BA とスケーリング gamma_r でモデリングする。
活性化と勾配のモーメントに基づく2つの安定性条件を用いて秩-stabilized アダプターを定義する。
秩全体での安定性のために gamma_r は Theta(1/sqrt(r)) にスケールする必要があることを証明する（定理3.2）。
得られた手法を rank-stabilized LoRA（rsLoRA）と名付ける。
LoRA と rsLoRA を Empirically に比較する：Llama 2 7B を 20k OpenOrca instructions でファインチューニングし、r を {4,8,32,128,512,2048} に変え、パープレックスティと勾配ノルムを追跡する。
モデル、データセット、オプティマイザ（AdamW、SGD、Adafactor）、アダプター配置（attention/MLP）を横断するアブレーションを実施する。
rsLoRA では高いランクでより良い性能を達成しつつ、標準の LoRA とは異なり勾配ノルムを安定させる。

実験結果

リサーチクエスチョン

RQ1秩 stabilizing スケーリング gamma_r ~ 1/sqrt(r) は任意に大きなアダプタランクで安定した学習を保証するのか。
RQ2アダプタランクが増加するにつれて rsLoRA は従来の LoRA と比較してファインチューニング性能をどのように示すか。
RQ3rsLoRA は推論コストを増やすことなく高ランクアダプタの利点を解放できるのか。
RQ4モデル、データセット、オプティマイザの変更に対して rsLoRA の有用性は頑健か。

主な発見

従来のスケーリング gamma_r = alpha/r を用いた LoRA は大ランクで勾配崩壊を引き起こし、性能向上を制限する。
gamma_r が Theta(1/sqrt(r)) の rsLoRA はランク安定学習を実現し、ランク間で勾配の大きさを維持する。
経験的な結果は、 rsLoRA が高ランクでのファインチューニング性能を向上させるのに対し、LoRA の性能はランクが増加すると平坦化または劣化することを示す。
rsLoRA では勾配ノルムがランクを超えてほぼ安定する一方、LoRA は高ランクで勾配が崩壊する。
このアプローチは計算資源と性能のトレードオフを提供する：より大きなランクは推論コストを変えずにファインチューニング性能を向上させる。
アブレーションは、所見が異なるモデル、データセット、オプティマイザ、アダプター配置間で一般化することを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。