Skip to main content
QUICK REVIEW

[논문 리뷰] FedAT: A High-Performance and Communication-Efficient Federated Learning System with Asynchronous Tiers

Zheng Chai, Yujing Chen|arXiv (Cornell University)|2020. 10. 12.
Privacy-Preserving Technologies in Data참고 문헌 48인용 수 28
한 줄 요약

FedAT는 비동기적 교차티어 및 동기적 내티어 학습을 결합하여 느린 클라이언트(stragglers)와 통신 병목 현상을 완화하는 새로운 분산학습 시스템이다. 느린 클라이언트를 고려한 가중 평균화와 다각형 인코딩 압축 기법을 통해, 비i.i.d. 데이터 및 이질적인 클라이언트 환경에서 기존 최고 수준의 방법 대비 예측 정확도는 최대 21.09% 향상되고 통신 비용은 8.5배 감소한다.

ABSTRACT

Federated learning (FL) involves training a model over massive distributed devices, while keeping the training data localized. This form of collaborative learning exposes new tradeoffs among model convergence speed, model accuracy, balance across clients, and communication cost, with new challenges including: (1) straggler problem, where the clients lag due to data or (computing and network) resource heterogeneity, and (2) communication bottleneck, where a large number of clients communicate their local updates to a central server and bottleneck the server. Many existing FL methods focus on optimizing along only one dimension of the tradeoff space. Existing solutions use asynchronous model updating or tiering-based synchronous mechanisms to tackle the straggler problem. However, the asynchronous methods can easily create a network communication bottleneck, while tiering may introduce biases as tiering favors faster tiers with shorter response latencies. To address these issues, we present FedAT, a novel Federated learning method with Asynchronous Tiers under Non-i.i.d. data. FedAT synergistically combines synchronous intra-tier training and asynchronous cross-tier training. By bridging the synchronous and asynchronous training through tiering, FedAT minimizes the straggler effect with improved convergence speed and test accuracy. FedAT uses a straggler-aware, weighted aggregation heuristic to steer and balance the training for further accuracy improvement. FedAT compresses the uplink and downlink communications using an efficient, polyline-encoding-based compression algorithm, therefore minimizing the communication cost. Results show that FedAT improves the prediction performance by up to 21.09%, and reduces the communication cost by up to 8.5x, compared to state-of-the-art FL methods.

연구 동기 및 목표

  • 클라이언트의 자원 및 데이터 이질성으로 인한 분산학습에서의 느린 클라이언트 문제를 해결한다.
  • 고용량 클라이언트로 인해 서버가 과부하가 걸리는 비동기 분산학습 환경에서의 통신 병목 현상을 극복한다.
  • 비i.i.i.d. 데이터 환경에서 모델 수렴 속도, 정확도, 통신 효율성 간의 균형을 확보한다.
  • 클라이언트의 부분적 참여 또는 티어 간 불균형한 분포 상황에서도 높은 성능을 유지하는 시스템을 개발한다.
  • 효율적 압축과 지능형 평균화를 통해 모델 정확도를 희생시키지 않고 통신 비용을 최소화한다.

제안 방법

  • 클라이언트를 계산 및 네트워크 능력에 따라 티어로 그룹화하여 느린 클라이언트를 관리하는 계층 아키텍처를 도입한다.
  • 빠른 클라이언트의 안정적이고 조율된 업데이트를 확보하기 위해 각 티어 내에서 동기 학습을 수행한다.
  • 더 빠른 티어가 느린 클라이언트를 기다리지 않고도 업데이트를 기여할 수 있도록 비동기 교차티어 통신을 활용한다.
  • 업데이트 품질과 지연 시간을 기반으로 더 신뢰성 있거나 빠른 클라이언트에게 더 큰 영향력을 부여하는 느린 클라이언트 인식 가중 평균화 히وري스틱을 적용한다.
  • 업로드 및 다운로드 통신 오버헤드를 줄이기 위해 다각형 인코딩 기반 압축 알고리즘을 구현한다.
  • 이론적 분석을 통해 제안된 프레임워크 하에서 볼록 및 비볼록 손실 함수 모두에 대해 수렴 보장을 입증한다.

실험 결과

연구 질문

  • RQ1비i.i.d. 데이터 하에서 느린 클라이언트 영향을 효과적으로 줄이기 위해 하이브리드 동기-비동기 학습 전략이 유의미한가?
  • RQ2가중 평균화와 함께 티어링을 적용할 경우 순수 동기 또는 비동기 분산학습 대비 정확도 및 수렴 속도는 얼마나 향상되는가?
  • RQ3효율적 압축을 통해 통신 비용을 얼마나 줄일 수 있으며, 이로 인해 모델 성능이 떨어지지 않는가?
  • RQ4클라이언트 참여율의 변동성과 티어 간 불균형한 클라이언트 분포 상황에서 시스템의 내구성은 어떠한가?
  • RQ5극심한 클라이언트 탈락 또는 부분적 참여 상황에서도 제안된 방법이 높은 성능을 유지하는가?

주요 결과

  • FedAT는 CIFAR-10 및 FEMNIST에서 기존 최고 수준의 분산학습 방법 대비 예측 정확도를 최대 21.09% 향상시켰다.
  • 모델 업데이트의 다각형 인코딩 기반 압축을 통해 통신 비용이 최대 8.5배 감소했다.
  • 라운드당 100명의 클라이언트 중 2명만 참여하더라도 FedAT는 CIFAR-10에서 FedAvg 대비 14.47% 높은 정확도를 달성했다.
  • 균일, 느린, 중간, 빠른 티어 분포를 포함한 모든 테스트 설정에서 FedAT는 최종 모델 정확도에 미미한 영향을 주며 높은 성능을 유지했다.
  • 비동기 교차티어 업데이트 덕분에 부분적 참여 상황에서도 FedAvg 및 TiFL보다 더 빠르게 수렴했다.
  • 이론적 분석을 통해 FedAT 프레임워크 하에서 볼록 및 비볼록 손실 함수 모두에 대해 수렴 보장을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.