QUICK REVIEW

[論文レビュー] LoRA Dropout as a Sparsity Regularizer for Overfitting Control

Lin Yang, Xinyu Ma|arXiv (Cornell University)|Apr 15, 2024

Sparse and Compressive Sensing Techniques被引用数 7

ひとこと要約

本論文は LoRA Dropout を導入する。これは LoRA ベースのパラメータ効率的微調整におけるスパース性ベースの正則化手法であり、理論と推論時アンサンブルを通じて NLP タスク全体で一般化性能とキャリブレーションを改善する。

ABSTRACT

Parameter-efficient fine-tuning methods, represented by LoRA, play an essential role in adapting large-scale pre-trained models to downstream tasks. However, fine-tuning LoRA-series models also faces the risk of overfitting on the training dataset, and yet there's still a lack of theoretical guidance and practical mechanism to control overfitting on LoRA-based PEFT methods. In this paper, we propose a LoRA Dropout mechanism for the LoRA-based methods by introducing random noises to the learnable low-rank matrices and increasing parameter sparsity. We then demonstrate the theoretical mechanism of our LoRA Dropout mechanism from the perspective of sparsity regularization by providing a generalization error bound under this framework. Theoretical results show that appropriate sparsity would help tighten the gap between empirical and generalization risks and thereby control overfitting. Furthermore, based on the LoRA Dropout framework, we introduce a test-time ensemble strategy and provide theoretical evidence demonstrating that the ensemble method can further compress the error bound, and lead to better performance during inference time. Extensive experiments on various NLP tasks provide practical validations of the effectiveness of our LoRA Dropout framework in improving model accuracy and calibration.

研究の動機と目的

大規模事前学習言語モデルの LoRA- および AdaLoRA ベースの微調整における過学習を動機づけて対処する。
学習可能な LoRA 行列の表現力を保ったままスパース性を誘導するドロップアウト機構を開発する。
LoRA Dropout のスパース性正則化下での理論的一般化保証を提供する。
推論性能と一般化をさらに改善するための推定時アンサンブル戦略を提案する。
GLUE、SQuAD、指示調整を含む多様な NLP タスクでフレームワークを実証的に検証する。

提案手法

Bernoulli(p) の抽出によって行/列をマスクすることで LoRA の低ランク行列の入力/出力次元にドロップアウトを適用する。
順伝播を h = W0x + Ãx として表現し、Ã = B A、そして dropout 適用版 Ã̂ = B̂ Â̂、ここで Â と B̂ は A と B のマスク版である。
損失を N 個のドロップアウトインスタンスの平均として評価する目的関数で学習する： L(x) = (1/N) Σr ℓ(x; θ0 + Δθ(mr))。
dropout の枠組みを AdaLoRA に適用し、対角 Λ を dropout 中に固定しつつ P と Q 行列をマスクする。
スパース性正則化に基づく最適化視点を展開し、それが一般化誤差境界（定理 4.4）につながる。
dropout インスタンス化されたモデル間で出力を平均化する推論時アンサンブルを導入し、より厳密な誤差境界（定理 4.5）を得る。

実験結果

リサーチクエスチョン

RQ1LoRAベースの微調整は、経験的リスクとモデルの複雑さのバランスを取るために dropout で正則化できるか。
RQ2LoRA Dropout によって誘導されるスパース性正則化は、PEFT 手法の一般化とキャリブレーションを改善するか。
RQ3推論時の dropout アンサンブルはさらに一般化誤差を減らし、性能を向上させるか。
RQ4実務上、LoRA Dropout は NLP タスク全体で AdaLoRA や他の LoRA 変種とどのように相互作用するか。

主な発見

LoRA Dropout は LoRA ベースの手法における過学習を抑制できるスパース性正則化微調整目的を提供する。
理論分析は、ドロップアウト率 p とスパース性強度 λ によって制御される経験リスクとモデル複雑さのトレードオフを示す一般化誤差境界を導出する。
推論時アンサンブルは誤差境界をさらに厳密化し、推論時の一般化を改善する。
GLUE タスク、SQuAD、指示調整を横断した実証結果は、LoRA Dropout がベースラインの LoRA および AdaLoRA より一貫して精度とキャリブレーションを向上させることを示す。
LoRA Dropout はいくつかの GLUE タスクで期待キャリレーション誤差（ECE）を低減し、予測のキャリブレーションが向上していることを示す。
SQuAD v1.1/v2.0 および指示調整全体で、LoRA Dropout は非ドロップアウトのベースラインより高い EM/F1 および MMLU 0-shot 精度をそれぞれ達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。