[論文レビュー] Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes
要約: 本論文は FedKSeed を提案する。ゼロ階微分型の連合微調整法で、固定の小さなシードプールとスカラー勾配を用い、さらには非均一なシードサンプリングを加える FedKSeed-Pro により、何十億規模の LLM の全パラメータ微調整を通信コスト18KB未満で実現する。
Pre-trained large language models (LLMs) need fine-tuning to improve their responsiveness to natural language instructions. Federated learning offers a way to fine-tune LLMs using the abundant data on end devices without compromising data privacy. Most existing federated fine-tuning methods for LLMs rely on parameter-efficient fine-tuning techniques, which may not reach the performance height possible with full-parameter tuning. However, federated full-parameter tuning of LLMs is a non-trivial problem due to the immense communication cost. This work introduces FedKSeed that employs zeroth-order optimization with a finite set of random seeds. It significantly reduces transmission requirements between the server and clients to just a few random seeds and scalar gradients, amounting to only a few thousand bytes, making federated full-parameter tuning of billion-sized LLMs possible on devices. Building on it, we develop a strategy enabling probability-differentiated seed sampling, prioritizing perturbations with greater impact on model accuracy. Experiments across six scenarios with various LLMs, datasets and data partitions demonstrate that our approach outperforms existing federated LLM fine-tuning methods in both communication efficiency and new task generalization.
研究の動機と目的
- 数十億規模の LLM の全パラメータ微調整を連合設定で最小限の通信で実現可能であることを示す。
- 全モデルパラメータの交換とバックプロパゲーションベースのメモリ使用を回避し、サーバ-クライアント間の伝送量を削減する。
- 連合・非IIDデータ下で精度を維持または向上させるシードベースの摂動戦略を開発する。
- ゼロ階最適化フレームワークにおけるシード再利用の理論的・実証的分析を提供する。
提案手法
- 有限個のランダムシードを用いて摂動を生成するゼロ階最適化(ZOO)を用いて全パラメータ微調整を行う。
- サーバー側に K 個のシードプールとスカラー勾配蓄積器を維持し、フルパラメータを送信せず最新のグローバルモデルを再構成する。
- クライアントは選択されたシードに結びつく二点勾配推定を用いて局所更新を行い、全モデル更新の代わりにシード勾配履歴を報告する。
- サーバー側でシードごとのスカラー勾配を集約してグローバル摂動射影を更新し、シードベースの更新規則により局所的に最新モデルを再構築する。
- 推定勾配の大きさに基づいてシードを重み付けする非均一シードサンプリング(FedKSeed-Pro)を導入し、効率と精度を向上させる。
実験結果
リサーチクエスチョン
- RQ1十億規模の LLM の全パラメータ微調整を通信効率良く実現して、実用的な連合展開が可能になるのか?
- RQ2シードプールを K 摂動に制限することは、無制限シードアプローチと比べて収束と精度にどのような影響を与えるのか?
- RQ3非均一シードサンプリングは FedKSeed-Pro において精度を改善し、必要なシード Cardinality を減らすのか?
- RQ4ZOOベースの FL におけるシード再利用と収束保証の理論的関係はどのようになるのか?
- RQ5FedKSeed および FedKSeed-Pro は、PEFTベースの連合微調整法と比較して、様々な LLM、データセット、データ分割設定でどのように性能を発揮するのか?
主な発見
- FedKSeed は、摂動をシードとしてエンコードしスカラー勾配だけを送信することで、1回あたりの通信を18キロバイト未満で全パラメータ微調整を達成する。
- 収束解析の結果、提案フレームワーク下ではシードの多様性が収束に影響を与えず、シード再利用が理論的保証を損なうことなく可能である。
- 非均一シードサンプリング(FedKSeed-Pro)は Rouge-L スコアを一貫して向上させ、必要なシード Cardinality を低減し、シナリオ全体でベースラインに対して平均で最大 7.26% の相対的改善を達成する。
- 1B–3B モデルを対象とした6つのシナリオにおける経験的結果は、PEFTベースの連合微調整ベースラインよりも精度と通信/メモリ効率の双方で優れている。
- FedKSeed-Pro は小さな K(例: 1024–4096)でもより高い精度を達成でき、いくつかの設定で同期効率において FedKSeed より優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。