Skip to main content
QUICK REVIEW

[論文レビュー] Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Jiayu Huang, Xiaohu Wu|arXiv (Cornell University)|Mar 9, 2026
Privacy-Preserving Technologies in Data被引用数 0
ひとこと要約

SFed-LoRA は理論的に導出された連邦ファインチューニング用スケーリング係数 gamma_z = alpha * sqrt(N / r) を提案し、連邦適応の収束を改善し、クライアント数とランクの変動に対する勾配崩壊を防ぐ。

ABSTRACT

Large Language Models (LLMs) are pivotal in natural language processing. The impracticality of full fine-tuning has prompted Parameter-Efficient Fine-Tuning (PEFT) methods like Low-Rank Adaptation (LoRA), optimizing low-rank matrices A and B. In distributed scenarios where privacy constraints necessitate Federated Learning (FL), however, the integration of LoRA is often unstable. Specifically, we identify that aggregating updates from multiple clients introduces statistical variance that scales with the client count, causing gradient collapse when using high-rank adapters. Existing scaling factor candidates, such as the one used by Rank-Stabilized LoRA, ignore the interaction caused by the aggregation process. To bridge this gap, this paper introduces Stabilized Federated LoRA (SFed-LoRA), a framework that theoretically characterizes the interaction between adapter rank and federated aggregation. We derive an optimal scaling factor designed to effectively mitigate the aggregation error accumulating across N clients. By correcting the scaling mismatch inherent in previous approaches, SFed-LoRA restores the efficacy of high-rank adaptation without altering the original model architecture or increasing inference latency. Extensive experiments in diverse tasks, model architectures, and heterogeneous data distributions are conducted to validate our results. We demonstrate that SFed-LoRA prevents high-rank collapse, and achieves significantly improved stability and faster convergence compared with state-of-the-art baselines for high-rank adaptation.

研究の動機と目的

  • LoRA の連邦学習における集約分散による不安定性を動機付けて対処する。
  • クライアント数とアダプタランクを考慮した原理的なスケーリング係数を導出する。
  • モデルアーキテクチャや推論レイテンシを変えずに高ランク適応を安定化させる SFed-LoRA を提案する。
  • 無限幅解析による理論的根拠を提供し、タスクとモデルを横断して経験的に検証する。

提案手法

  • LoRA アダプタと連邦集約の相互作用を定義・分析する。
  • 無限幅の軌道フレームワークを用いて連邦最適なスケーリング係数 gamma_z = alpha * sqrt(N / r) を導出する。
  • A ののみを集約し B は局所のままにする基盤フレームワークとして FedSA-LoRA を採用する。
  • ローカル計算に gamma_z を組み込み、ランクとクライアントサイズに対する学習の安定性を向上させる。
  • SFed-LoRA を、データセットとモデルを横断して FedSA-LoRA、FedSA-rsLoRA、RoLoRA と比較する。

実験結果

リサーチクエスチョン

  • RQ1連邦集約が FL 設定における高ランク LoRA アダプタにどのような影響を及ぼすか。
  • RQ2N と r が変動する場合に LoRA を最適に安定化するスケーリング係数 gamma は何か。
  • RQ3推論レイテンシを増加させずに高ランク適応を安定化できるか。
  • RQ4SFed-LoRA の安定性向上はタスク、モデル、オプティマイザ、データ分布を横断して一般化するか。

主な発見

  • SFed-LoRA は高ランク崩壊を防ぎ、ベースラインよりも収束を速く達成する。
  • 提案された gamma_z = alpha * sqrt(N / r) は集約分散を相殺し、ランク間で勾配ノルムを安定させる。
  • SFed-LoRA は IID および異種設定で LoRA、rsLoRA、RoLoRA より安定性と収束性が優れている。
  • LLaMA 2 と RoBERTa-large、GSM8K および GLUE タスク、さまざまな N と r に対して堅牢な性能を示す。
  • アブレーションにより、導出されたスケーリング則の最適性と FedSA-LoRA で A のみを集約する必要性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。