[論文レビュー] Parameter-Efficient Fine-Tuning with Discrete Fourier Transform
tldr: FourierFT は、重み変化行列のスペクトル係数のまばらな更新のみを行うことで大規模基盤モデルを微調整することを提案し、NLPおよびCVタスクで LoRA よりはるかに少ない訓練可能パラメータ数で、同等またはそれ以上の性能を達成する。
Low-rank adaptation~(LoRA) has recently gained much interest in fine-tuning foundation models. It effectively reduces the number of trainable parameters by incorporating low-rank matrices $A$ and $B$ to represent the weight change, i.e., $ΔW=BA$. Despite LoRA's progress, it faces storage challenges when handling extensive customization adaptations or larger base models. In this work, we aim to further compress trainable parameters by enjoying the powerful expressiveness of the Fourier transform. Specifically, we introduce FourierFT, which treats $ΔW$ as a matrix in the spatial domain and learns only a small fraction of its spectral coefficients. With the trained spectral coefficients, we implement the inverse discrete Fourier transform to recover $ΔW$. Empirically, our FourierFT method shows comparable or better performance with fewer parameters than LoRA on various tasks, including natural language understanding, natural language generation, instruction tuning, and image classification. For example, when performing instruction tuning on the LLaMA2-7B model, FourierFT surpasses LoRA with only 0.064M trainable parameters, compared to LoRA's 33.5M. Our code is released at \url{https://github.com/Chaos96/fourierft}.
研究の動機と目的
- 大規模基盤モデル(LFM)の微調整におけるストレージ削減を、カスタマイズ需要の高まりの中で動機づける。
- 層ごとに一度だけ学習される sparse spectral coefficients で重みの変化を表現する FourierFT を導入する。
- スペクトルベースのパラメータ化が、NLPおよびCVベンチマークにおいて LoRA よりもはるかに少ない訓練可能パラメータ数で競合的な精度を達成できることを示す。
提案手法
- Delta W(重み変化)を空間領域の行列として扱う。
- 層間で共有されるランダムに選択されたエントリに位置する小さなスペクトル係数の集合を学習する。
- 固定エントリ行列 E と学習可能な係数 c から密なスペクトル行列を構成し、逆離散フーリエ変換で Delta W を計算し実部をとる。
- 推論遅延を回避するため、フォワードパス時に Delta W を事前訓練済み重み W0 と統合する。
- recovered Delta W の影響を変調するスケーリング係数 alpha を用いる。
- FourierFT モジュールの PyTorch 風疑似コードを提供し、スペクトルエントリの周波数バイアス初期化オプションを検討する。
実験結果
リサーチクエスチョン
- RQ1極めてまばらなスペクトル係数だけで、LFM の微調整に有益な重み更新を十分に捉えられるか。
- RQ2FourierFT は NLP および CV タスクにおいて、性能とパラメータ効率の点で LoRA およびフル微調整とどう比較されるか。
- RQ3スペクトルエントリ選択のバイアス(周波数バイアス)が性能に与える影響はどれほどか。
- RQ4従来の PEFT 手法と比べてモデルサイズおよび層深さに対して FourierFT はどうスケールするか。
主な発見
- FourierFT は、NLP および CV タスク全般で LoRA と比較してはるかに少ない訓練可能パラメータ数で同等またはそれ以上の性能を達成する。
- LLaMA 系モデルを用いた指示学習において、FourierFT は LoRA よりも 0.064M の訓練可能パラメータで上回ることがあり、LoRA の 33.5M に対して大幅に少ない。
- FourierFT は場合によっては Full Fine-tuning と同等のスコアを 0.128M のパラメータで達成する。
- ViT ベースの画像分類では、FourierFT は LoRA のパラメータ数の 12.4%(ViT Base)および 9.2%(ViT Large)で競合的な精度に達し、LoRA のパラメータ割合を増やすとそれを上回ることもある。
- GLUE、E2E、指示学習、および CV ベンチマーク全体で、FourierFT は常にはるかに少ない訓練可能パラメータ数を使用しつつ、同等または優れた結果を出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。