Skip to main content
QUICK REVIEW

[論文レビュー] Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning

Wenhan Xia, Chengwei Qin|ArXiv.org|Jan 8, 2024
Machine Learning and ELM被引用数 5
ひとこと要約

COLA は低ランク LoRA モジュールの連鎖を反復的に学習し、それらをバックボーンへ段階的に統合し、新しいモジュールのために再初期化することで、推論時の追加計算なしで LoRA より良い一般化を達成する。

ABSTRACT

Fine-tuning is the primary methodology for tailoring pre-trained large language models to specific tasks. As the model's scale and the diversity of tasks expand, parameter-efficient fine-tuning methods are of paramount importance. One of the most widely used family of methods is low-rank adaptation (LoRA) and its variants. LoRA encodes weight update as the product of two low-rank matrices. Despite its advantages, LoRA falls short of full-parameter fine-tuning in terms of generalization error for certain tasks. We introduce Chain of LoRA (COLA), an iterative optimization framework inspired by the Frank-Wolfe algorithm, to bridge the gap between LoRA and full parameter fine-tuning, without incurring additional computational costs or memory overheads. COLA employs a residual learning procedure where it merges learned LoRA modules into the pre-trained language model parameters and re-initilize optimization for new born LoRA modules. We provide theoretical convergence guarantees as well as empirical results to validate the effectiveness of our algorithm. Across various models (OPT and llama-2) and seven benchmarking tasks, we demonstrate that COLA can consistently outperform LoRA without additional computational or memory costs.

研究の動機と目的

  • モデルが成長しタスクの多様性が拡大する中で、パラメータ効率の高いファインチューニングを動機づける。
  • 追加コストなしで LoRA とフルパラメータファインチューニングの一般化ギャップを縮める。
  • 学習済みモジュールをバックボーンへ統合して適応性を改善する、反復的な残差学習フレームワークを開発する。

提案手法

  • LoRA モジュールの連鎖を形成し、タスク固有の重み更新を低ランク項の和として近似する。
  • 各ステップで、これまでのバックボーン重みを固定しつつ、新しい LoRA (A_i, B_i) を訓練する。
  • 現在の LoRA (B_i A_i) を凍結されたバックボーン重みへ統合して結び目を作り、残差のために新しい LoRA を再初期化して連鎖を拡張する。

実験結果

リサーチクエスチョン

  • RQ1残差 LoRA 更新の連鎖は、同じ計算量を維持しつつ LoRA との一般化ギャップを縮められるか?
  • RQ2反復的な統合と拡張(COLA)は、異なるモデルアーキテクチャやデータセットにまたがるタスク適応性を向上させるか?
  • RQ3COLA は非凸・確率的最適化設定においてどのような収束特性を示すか?

主な発見

  • COLA は同じ訓練予算で OPT-1.3B の7タスク全てで LoRA を一貫して上回る。
  • OPT-1.3B で、COLA は WSC のテスト精度を LoRA より相対的に 6.47% 向上させる。
  • OPT-1.3B で、COLA は BoolQ で 1.95%、RTE で 2.29% の相対改善を LoRA より達成。
  • Llama2-7B では RTE を 82.09 から 85.70 に改善し、相対ゲインは 4.40%。」] ,
  • table_headers: []
  • table_rows: []

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。