[논문 리뷰] SplitCom: Communication-efficient Split Federated Fine-tuning of LLMs via Temporal Compression
SplitCom은 활성화의 에포크 간 시간 중복성을 활용하여 LLM의 분할 연합 파인튜닝에서 업링크 및 전체 통신량을 감소시키고, 적응 임계값과 LoRA 어댑터를 사용하며, 라벨 프라이버시를 위한 U-자형 확장을 제공합니다.
Federated fine-tuning of on-device large language models (LLMs) mitigates privacy concerns by preventing raw data sharing. However, the intensive computational and memory demands pose significant challenges for resource-constrained edge devices. To overcome these limitations, split federated learning (SFL) emerges as a promising solution that partitions the model into lightweight client-side and compute-intensive server-side sub-models, thus offloading the primary training workload to a powerful server. Nevertheless, high-dimensional activation exchanges in SFL lead to excessive communication overhead. To overcome this, we propose SplitCom, a communication-efficient SFL framework for LLMs that exploits temporal redundancy in activations across consecutive training epochs. Inspired by video compression, the core innovation of our framework lies in selective activation uploading only when a noticeable deviation from previous epochs occurs. To balance communication efficiency and learning performance, we introduce two adaptive threshold control schemes based on 1) bang-bang control or 2) deep deterministic policy gradient (DDPG)-based reinforcement learning. Moreover, we implement dimensionality reduction techniques to alleviate client-side memory requirements. Furthermore, we extend SplitCom to the U-shape architecture, ensuring the server never accesses clients' labels. Extensive simulations and laboratory experiments demonstrate that SplitCom reduces uplink communication costs by up to 98.6\,\% in its standard configuration and total communication costs by up to 95.8\,\% in its U-shape variant without noticeably compromising model performance.
연구 동기 및 목표
- 원시 데이터 공유 없이 기기 내 LLM의 프라이버시 보존 파인튜닝을 촉진합니다.
- 분할 연합 학습(SFL)을 통해 엣지 디바이스의 높은 메모리 및 계산 요구를 해결합니다.
- 시간적 활성화 압축을 통해 고차원 활성화의 통신 오버헤드를 감소시킵니다.
- 효율성과 성능의 균형을 맞추기 위한 적응 임계값 전략과 차원 축소를 제안합니다.
- 양방향 통신을 감소시키면서 라벨 프라이버시를 보존하기 위해 SplitCom을 U-자형 아키텍처로 확장합니다.
제안 방법
- 사전 학습된 LLM을 클라이언트 측 및 서버 측 서브모델로 분할하고 경량 파인튜닝을 위한 LoRA 어댑터를 사용합니다.
- 유사도가 임계값을 초과할 때 연속 에포크 간에 활성화를 재사용하여 에포크 간 시간 압축을 도입합니다.
- RP 압축 활성화에 대한 코사인 유사도를 사용하여 활성화 업로드 여부를 결정하고 업링크 트래픽을 줄입니다.
- 검증 perplexity를 기반으로 한 밍-뱅 컨트롤과 DDPG 기반 강화학습의 두 가지 적응 임계값 제어 스킴을 제공합니다.
- 활성화 및 그래디언트 모두에 대한 시간적 압축과 클라이언트 라벨 프라이버시 보존을 가능하게 하는 U-자형 아키텍처로 확장합니다.
- 세 가지 NLG 데이터셋에서 GPT-2 Small/XLarge에 대해 표준 SFL(SplitLoRA) 및 SplitCom를 기준선과 비교합니다.
실험 결과
연구 질문
- RQ1모델 성능에 영향을 주지 않으면서 LLM의 분할 연합 파인튜닝에서 활성화 전송을 어떻게 줄일 수 있을까?
- RQ2LLM용 SFL에서 에포크 간 시간 중복성을 활용해 통신을 압축할 수 있을까?
- RQ3적응 임계값 전략(밍-뱅 및 DDPG)이 통신 비용과 정확도를 효과적으로 균형낼까?
- RQ4SplitCom을 U-자형 아키텍처로 확장하면 프라이버시를 보존하면서 양방향 통신을 줄일 수 있을까?
주요 결과
- 업링크 통신은 표준 SplitCom 구성에서 최대 98.6%까지 감소시킬 수 있습니다.
- 총 통신은 U-자형 변형에서 최대 95.8%까지 감소시킬 수 있습니다.
- 시간적 활성화 재사용은 코사인 유사도와 RP 압축을 사용하더라도 모델 성능 저하를 현저하게 가져오지 않습니다.
- 밍-뱅 컨트롤은 가볍고 효과적인 임계값 조정을 제공하며, DDPG 기반 RL은 임계값 조정을 위한 연속 정책을 제공합니다.
- SplitCom은 직교 압축 단계로 INT8 양자화와의 호환성을 보여줍니다.
- DART, E2E, WebNLG 데이터셋에 대한 평가에서 성능 유지와 함께 상당한 통신 절감이 나타납니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.