QUICK REVIEW

[論文レビュー] Federated Customization of Large Models: Approaches, Experiments, and Insights

Yuchuan Ye, Ming Ding|arXiv (Cornell University)|Jan 2, 2026

3D Shape Modeling and Analysis被引用数 0

ひとこと要約

本論文は大規模言語モデルとビジョンモデルの federated customization 技術を概観し、FL下での中央集約型手法と競合するパフォーマンスを示す初の federated prefix-tuning 実験を提示します。

ABSTRACT

In this article, we explore federated customization of large models and highlight the key challenges it poses within the federated learning framework. We review several popular large model customization techniques, including full fine-tuning, efficient fine-tuning, prompt engineering, prefix-tuning, knowledge distillation, and retrieval-augmented generation. Then, we discuss how these techniques can be implemented within the federated learning framework. Moreover, we conduct experiments on federated prefix-tuning, which, to the best of our knowledge, is the first trial to apply prefix-tuning in the federated learning setting. The conducted experiments validate its feasibility with performance close to centralized approaches. Further comparison with three other federated customization methods demonstrated its competitive performance, satisfactory efficiency, and consistent robustness.

研究の動機と目的

プライバシー/規制の制約の下で基盤LMの連合カスタマイズの必要性を喚起する。
FL設定で人気のあるLMカスタマイズ技術をレビューし分類する。
実験を通じて連合プレフィックスチューニングの実現可能性と性能を示す。
連合LMカスタマイズ手法間での通信コストと計算コストを比較する。
連合LMカスタマイズの将来の研究方向を特定する。

提案手法

6つのLMカスタマイズ技術を調査する：全ファインチューニング、効率的ファインチューニング、プロンプト設計、プレフィックス調整、RAG、知識蒸留。
各技術を連合学習設定へ対応づけ、プライバシー、コスト、スケーラビリティへの影響を検討する。
生のプレフィックスではなくプレフィックス最適化パラメータを集約することで連合プレフィックスチューニングを提案・実装する。
GPT-2ファミリをバックボーンとするエンドツーエンド(E2E)およびDARTデータセットで表→テキストの実験を実施する。
4つの連合カスタマイズ手法（FFFT、FAT、FKD、FPT）を精度と資源使用量の観点で比較する。
クライアント数の変動や非IIDデータ条件に対する頑健性を分析する。

実験結果

リサーチクエスチョン

RQ1大規模モデルのカスタマイズを様々なクライアントに対して連合学習で適用することは実現可能か。
RQ2FL下での各種LMカスタマイズアプローチは精度と効率の点でどう異なるか。
RQ3連合プレフィックスチューニングは中央集約または単一クライアント學習と競合する結果を達成できるか。
RQ4クライアント数と非IIDデータが連合LMカスタマイズ手法へ与える影響は何か。
RQ5FLベースのLMカスタマイズにおける通信コスト・計算・性能の実用的なトレードオフは何か。

主な発見

Dataset	Method	BLEU	NIST	METEOR	ROUGE-L	CIDEr	Trainable Params (M)	Peak Memory (GB)	Epochs to Stop
E2E	FPT	68.91 ±0.12	8.80 ±0.02	46.25 ±0.21	71.71 ±0.08	2.48 ±0.01	25	4.8	17
E2E	FFFT	67.67 ±0.14	8.56 ±0.19	45.81 ±0.18	70.53 ±0.17	2.44 ±0.02	345	7.6	5
E2E	FAT	68.23 ±0.16	8.63 ±0.19	45.95 ±0.14	71.90 ±0.17	2.44 ±0.02	25	4.8	6
E2E	FKD	68.55 ±0.18	8.71 ±0.23	45.29 ±0.01	70.60 ±0.23	2.40 ±0.03	38.3	5.9	18
DART	FPT	45.55 ±0.21	8.73 ±0.06	38.38 ±0.25	60.21 ±0.23	2.82 ±0.01	25	4.8	21
DART	FFFT	34.19 ±0.28	6.50 ±0.25	38.70 ±0.19	55.00 ±0.17	1.95 ±0.01	345	7.6	6
DART	FAT	32.24 ±0.18	6.11 ±0.22	38.42 ±0.21	53.98 ±0.15	1.88 ±0.01	25	4.8	7
DART	FKD	31.13 ±0.20	5.60 ±0.12	26.83 ±0.15	43.75 ±0.18	1.44 ±0.02	38.3	5.9	20

GPT-2系バックボーンを用いた連合プレフィックスチューニング(FPT)はE2EおよびDARTの表→テキストタスクで中央集約型アプローチに近い競合的な性能を達成する。
FPTは個別クライアント訓練より優れることが多く、中央集約型プレフィックスチューニングの結果に近いが、通信と計算コストを低減する。
比較対象手法（FFFT、FAT、FKD、FPT）はE2Eでは類似の性能を示す一方、より難しいDARTタスクではFPTが明確な利点を示す。
FPTはクライアント数の増加に対して頑健で、非IID設定下でFKDより性能低下が小さい。
連合プレフィックスチューニングはモデルサイズに比例してスケールし、GPT-2 LargeはGPT-2 Mediumより改善し得るが、より大きなモデルが全データセットで普遍的に性能向上を保証するわけではない。
20–50クライアントの連合学習設定は性能へさまざまな影響を及ぼすが、FPTはクライアント数が多い場合でも比較的強力な性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。