[论文解读] Federated Customization of Large Models: Approaches, Experiments, and Insights
本文综述了用于大语言模型和视觉模型的联邦定制技术,并首次展示了联邦前缀调优的实验,其性能在FL条件下与集中方法相当。
In this article, we explore federated customization of large models and highlight the key challenges it poses within the federated learning framework. We review several popular large model customization techniques, including full fine-tuning, efficient fine-tuning, prompt engineering, prefix-tuning, knowledge distillation, and retrieval-augmented generation. Then, we discuss how these techniques can be implemented within the federated learning framework. Moreover, we conduct experiments on federated prefix-tuning, which, to the best of our knowledge, is the first trial to apply prefix-tuning in the federated learning setting. The conducted experiments validate its feasibility with performance close to centralized approaches. Further comparison with three other federated customization methods demonstrated its competitive performance, satisfactory efficiency, and consistent robustness.
研究动机与目标
- 在隐私/监管约束下,激发对基础LM进行联邦定制的需求。
- 在FL设置中对流行的LM定制技术进行回顾与分类。
- 通过实验演示联邦前缀调优的可行性与性能。
- 比较联邦LM定制方法在通信与计算成本上的差异。
- 识别联邦LM定制未来的研究方向。
提出的方法
- 对六种LM定制技术进行调查:全微调、高效微调、提示工程、前缀调优、RAG与知识蒸馏。
- 将每种技术映射到联邦学习设置,讨论隐私、成本与可扩展性影响。
- 提出并实现基于聚合前缀优化器参数而非原始前缀的联邦前缀调优(FPT)。
- 在E2E和DART数据集上以GPT-2家族模型为骨干进行表格到文本的实验。
- 对比四种联邦定制方法(FFFT、FAT、FKD、FPT)在准确性与资源消耗上的表现。
- 分析对不同客户端数量与非独立同分布(non-IID)条件下的鲁棒性。
实验结果
研究问题
- RQ1在多样化客户端条件下,将联邦学习应用于大模型定制的可行性如何?
- RQ2在FL条件下,不同LM定制方法在准确性与效率方面的表现如何?
- RQ3联邦前缀调优是否能达到与集中式或单客户端训练相当的结果?
- RQ4客户端数量与非IID数据对联邦LM定制方法有何影响?
- RQ5在基于FL的LM定制中,通信成本、计算成本与性能之间存在哪些实际权衡?
主要发现
| Dataset | Method | BLEU | NIST | METEOR | ROUGE-L | CIDEr | Trainable Params (M) | Peak Memory (GB) | Epochs to Stop |
|---|---|---|---|---|---|---|---|---|---|
| E2E | FPT | 68.91 ±0.12 | 8.80 ±0.02 | 46.25 ±0.21 | 71.71 ±0.08 | 2.48 ±0.01 | 25 | 4.8 | 17 |
| E2E | FFFT | 67.67 ±0.14 | 8.56 ±0.19 | 45.81 ±0.18 | 70.53 ±0.17 | 2.44 ±0.02 | 345 | 7.6 | 5 |
| E2E | FAT | 68.23 ±0.16 | 8.63 ±0.19 | 45.95 ±0.14 | 71.90 ±0.17 | 2.44 ±0.02 | 25 | 4.8 | 6 |
| E2E | FKD | 68.55 ±0.18 | 8.71 ±0.23 | 45.29 ±0.01 | 70.60 ±0.23 | 2.40 ±0.03 | 38.3 | 5.9 | 18 |
| DART | FPT | 45.55 ±0.21 | 8.73 ±0.06 | 38.38 ±0.25 | 60.21 ±0.23 | 2.82 ±0.01 | 25 | 4.8 | 21 |
| DART | FFFT | 34.19 ±0.28 | 6.50 ±0.25 | 38.70 ±0.19 | 55.00 ±0.17 | 1.95 ±0.01 | 345 | 7.6 | 6 |
| DART | FAT | 32.24 ±0.18 | 6.11 ±0.22 | 38.42 ±0.21 | 53.98 ±0.15 | 1.88 ±0.01 | 25 | 4.8 | 7 |
| DART | FKD | 31.13 ±0.20 | 5.60 ±0.12 | 26.83 ±0.15 | 43.75 ±0.18 | 1.44 ±0.02 | 38.3 | 5.9 | 20 |
- 使用GPT-2家族骨干的联邦前缀调优(FPT)在E2E和DART表格到文本任务上取得接近集中方法的竞争性性能。
- FPT通常优于单个客户端训练,并且接近集中前缀调优的结果,同时具有更低的通信和计算成本。
- 对比方法(FFFT、FAT、FKD、FPT)在E2E上表现相近,而在更具挑战性的DART任务上,FPT显示出明显优势。
- FPT在客户端数量增加时表现出鲁棒性,在非IID设置下的性能下降幅度小于FKD。
- 联邦前缀调优的模型规模扩展性良好(GPT-2 Large相较GPT-2 Medium有提升;但更大模型并不在所有数据集上普遍带来收益)。
- 在20–50个客户端的FL配置下,对性能的影响各异,其中FPT在较高客户端数量下保持相对更强的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。