[论文解读] SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression
SplitCom 通过利用激活在跨轮之间的时序冗余,结合自适应阈值和 LoRA 适配器,在分裂联邦微调大模型中降低上行与总通信量,并对标签隐私采用 U 形扩展。
Federated fine-tuning of on-device large language models (LLMs) mitigates privacy concerns by preventing raw data sharing. However, the intensive computational and memory demands pose significant challenges for resource-constrained edge devices. To overcome these limitations, split federated learning (SFL) emerges as a promising solution that partitions the model into lightweight client-side and compute-intensive server-side sub-models, thus offloading the primary training workload to a powerful server. Nevertheless, high-dimensional activation exchanges in SFL lead to excessive communication overhead. To overcome this, we propose SplitCom, a communication-efficient SFL framework for LLMs that exploits temporal redundancy in activations across consecutive training epochs. Inspired by video compression, the core innovation of our framework lies in selective activation uploading only when a noticeable deviation from previous epochs occurs. To balance communication efficiency and learning performance, we introduce two adaptive threshold control schemes based on 1) bang-bang control or 2) deep deterministic policy gradient (DDPG)-based reinforcement learning. Moreover, we implement dimensionality reduction techniques to alleviate client-side memory requirements. Furthermore, we extend SplitCom to the U-shape architecture, ensuring the server never accesses clients' labels. Extensive simulations and laboratory experiments demonstrate that SplitCom reduces uplink communication costs by up to 98.6\,\% in its standard configuration and total communication costs by up to 95.8\,\% in its U-shape variant without noticeably compromising model performance.
研究动机与目标
- 在不共享原始数据的情况下,推动隐私保护的本地部署大模型微调。
- 通过分裂联邦学习(SFL)解决边缘设备的高内存与计算需求。
- 通过时序激活压缩降低高维激活的通信开销。
- 提出自适应阈值策略与降维方法,在效率与性能之间取得平衡。
- 将 SplitCom 扩展到 U 形结构,在降低双向通信的同时保护标签隐私。
提出的方法
- 将预训练大模型划分为客户端子模型和服务器端子模型,并使用 LoRA 适配器实现轻量微调。
- 通过跨轮重复使用激活在相邻轮之间实现时序压缩,当相似度超过阈值时再进行上传。
- 基于 RP 压缩激活的余弦相似度来决定是否上传激活,降低上行流量。
- 提供两种自适应阈值控制方案:基于验证困惑度的 bang-bang 控制和基于 DDPG 的强化学习。
- 扩展至 U 形架构,使激活和梯度均可进行时序压缩并在保护客户端标签隐私的同时减少双向通信。
- 在三个自然语言生成数据集上,将标准 SFL(SplitLoRA)和 SplitCom 与基线在 GPT-2 Small/XLarge 上进行对比。
实验结果
研究问题
- RQ1如何在不损害模型性能的前提下,减少分裂联邦微调中激活传输?
- RQ2是否可以利用跨轮的时序冗余来压缩大模型的 SFL 通信?
- RQ3自适应阈值策略(bang-bang 与 DDPG)是否能在通信成本与准确性之间取得有效平衡?
- RQ4将 SplitCom 扩展到 U 形架构是否在降低双向通信的同时保护隐私?
主要发现
- 上行通信在标准 SplitCom 配置下可降低多达 98.6%。
- 在 U 形变体中总通信可降低多达 95.8%。
- 使用余弦相似度和 RP 压缩对激活进行时序重用并不会明显降低模型性能。
- Bang-bang 控制提供了轻量且有效的阈值调整,而基于 DDPG 的强化学习为阈值提供连续策略。
- SplitCom 与 INT8 量化兼容,作为正交的压缩步骤。
- 在 DART、E2E 与 WebNLG 数据集上的评估显示,在保持性能的同时实现了显著的通信节省。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。