[論文レビュー] SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression
SplitComは、間 epochs の activations の時系列冗長性を活用し、適応閾値とLoRAアダプタを用いることで、分割連合学習のアップリンクと総通信を削減する。ラベルプライバシーのためのU字形拡張。
Federated fine-tuning of on-device large language models (LLMs) mitigates privacy concerns by preventing raw data sharing. However, the intensive computational and memory demands pose significant challenges for resource-constrained edge devices. To overcome these limitations, split federated learning (SFL) emerges as a promising solution that partitions the model into lightweight client-side and compute-intensive server-side sub-models, thus offloading the primary training workload to a powerful server. Nevertheless, high-dimensional activation exchanges in SFL lead to excessive communication overhead. To overcome this, we propose SplitCom, a communication-efficient SFL framework for LLMs that exploits temporal redundancy in activations across consecutive training epochs. Inspired by video compression, the core innovation of our framework lies in selective activation uploading only when a noticeable deviation from previous epochs occurs. To balance communication efficiency and learning performance, we introduce two adaptive threshold control schemes based on 1) bang-bang control or 2) deep deterministic policy gradient (DDPG)-based reinforcement learning. Moreover, we implement dimensionality reduction techniques to alleviate client-side memory requirements. Furthermore, we extend SplitCom to the U-shape architecture, ensuring the server never accesses clients' labels. Extensive simulations and laboratory experiments demonstrate that SplitCom reduces uplink communication costs by up to 98.6\,\% in its standard configuration and total communication costs by up to 95.8\,\% in its U-shape variant without noticeably compromising model performance.
研究の動機と目的
- データを生のまま共有せず、オンデバイスLLMのプライバシー保護ファインチューニングを動機づける。
- エッジデバイスの高いメモリと計算要求を、分割連合学習(SFL)で対処する。
- 時系列活性化圧縮を通じて高次元活性化の通信量を削減する。
- 効率と性能のバランスを取るための適応閾値制御戦略と次元削減を提案する。
- クライアントラベルのプライバシーを保ちつつ bidirectional 通信を削減するため、SplitComをU-形アーキテクチャへ拡張する。
提案手法
- LoRAアダプタを用いた軽量ファインチューニングのため、事前学習済みLLMをクライアント側サブモデルとサーバー側サブモデルに分割する。
- 同一エポック間での類似度が閾値を超える場合に activations を再利用することで、エポック間の時系列圧縮を導入する。
- RP圧縮済み活性化に対するコサイン類似度を用いてアップロードする活性化の有無を決定し、アップリンクトラフィックを低減する。
- 2つの適応閾値制御スキームを提供する:検証 perplexity に基づくバンギング/バンギング(bang-bang)制御と、DDPGベースの強化学習。
- 時系列圧縮を活性化と勾配の両方に適用し、クライアント側ラベルのプライバシーを preserving するU-形アーキテクチャへ拡張する。
- 標準のSFL(SplitLoRA)とSplitComを、GPT-2 Small/XLarge の3つのNLGデータセットでベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1Split federated fine-tuning of LLMs において、モデル性能を損なうことなく活性化転送を削減できるか。
- RQ2エポック間の時系列冗長性を活用して、LLMs のSFLにおける通信を圧縮できるか。
- RQ3適応閾値戦略(バンギングとDDPG)は通信コストと精度のバランスを効果的に取れるか。
- RQ4SplitComをU-shapeアーキテクチャへ拡張することで、プライバシーを保ちつつ双方向通信を削減できるか。
主な発見
- 標準のSplitCom構成でアップリンク通信を最大で98.6%削減できる。
- U字形バリアントでは総通信を最大で95.8%削減できる。
- コサイン類似度とRP圧縮を用いた時系列活性化の再利用は、モデル性能を顕著に劣化させない。
- バンギング制御は軽量で効果的な閾値調整を提供し、DDPGベースのRLは閾値選択の連続的方針を提供する。
- SplitComは直交的圧縮としてINT8量子化との互換性を示す。
- DART、E2E、WebNLGデータセットにまたがる評価で、性能を維持しつつ通信節約を大幅に達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。