[論文レビュー] DoRA: Weight-Decomposed Low-Rank Adaptation
DoRAは事前学習済みの重みを大きさと方向に分解し、方向更新にLoRAを適用することで、追加推論コストなしの完全ファインチューニングのような学習を実現し、NLPとビジョン言語タスクでLoRAを上回る。
Among the widely used parameter-efficient fine-tuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed Low-Rank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing \ours, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. \ours~consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code is available at https://github.com/NVlabs/DoRA.
研究の動機と目的
- PEFTの利点にもかかわらず、なぜLoRAが容量の面でFTを下回るのかを深く理解する動機付け。
- 重みの更新において大きさと方向を分離する重み分解フレームワークの導入。
- 方向成分にLoRAを適用しつつ大きさをファインチューニングするDoRAを提案し、FT-LoRAのギャップを埋める。
- 推論コストを増やさず、NLPおよびビジョン-言語ベンチマーク全体でDoRA의有効性を示す。
提案手法
- 事前学習済みの重みを、列ごとのノルムを用いた重み分解によって大きさと方向の成分に再パラメータ化する。
- 方向成分にはLoRA風の低ランク更新を適用し、大きさ成分を訓練可能として扱う。
- DoRAの勾配ダイナミクスがLoRAよりもFTに近いことを示し、更新の大きさと方向の間の負の相関を含む。
- 必要に応じて、更新後の方向ベクトルのノルムを勾配から分離してバックプロパゲーション時のメモリを削減する。
- VeRA など他のLoRA系変種との互換性を、DVoRAを形成して性能を比較することで示す。
- 安定性と効率を検証するために、訓練メモリ、ランク設定、およびチューニング粒度のアブレーションを提供する。
実験結果
リサーチクエスチョン
- RQ1重みの大きさと方向の観点から見ると、LoRAとフルファインチューニング(FT)は学習パターンでどのように異なるか?
- RQ2DoRA(重み分解アプローチ)は、推論コストを追加せずにLoRAとFTの容量ギャップを埋められるか?
- RQ3方向成分にLoRAを適用しつつ大きさを調整することで、NLPおよびビジョン-言語タスクにおける学習容量は向上するか?
- RQ4DoRAは他のLoRA系変種と互換性があり、異なるランクやデータレジームに対して頑健か?
主な発見
- DoRAはLLaMA-7B/13Bの常識推論などのタスクでLoRAを一貫して上回る(例:+3.4 / +1.0)。
- DoRAはLLaVA-1.5-7Bのビジュアル指示チューニングを、平均でLoRAより+0.6、FTより+1.1改善する。
- DoRAはVL-BARTの画像/映像-テキスト理解を、VQA/GQA/NVLR2/COCO CapタスクでLoRAより+0.9 / +1.9改善する。
- DoRAはFTに似た学習パターン(大きさと方向の更新の負の傾斜)を達成し、追加の推論遅延を生じない。
- 勾配分離(gradient-detachment)変更を適用すると、DoRAのバックプロパagationの訓練メモリを約24.4%(LLaMA-7B)および約12.4%(VL-BART)削減でき、精度低下はほとんどない。
- VeRAと組み合わせたDoRAをDVoRAとして、LLaMA-7BおよびLLaMA2-7Bで、Trainable parametersが同程度または少ないままでVeRA/LoRAより一貫して改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。