QUICK REVIEW

[논문 리뷰] Federated Learning with Additional Mechanisms on Clients to Reduce Communication Costs

Xin Yao, Tianchi Huang|arXiv (Cornell University)|2019. 08. 16.

Privacy-Preserving Technologies in Data참고 문헌 23인용 수 31

한 줄 요약

이 논문은 클라이언트 측에 추가 메커니즘을 도입하여 통신 효율적인 플러드러닝 방법 두 가지—FedMMD와 FedFusion—을 제안한다. FedMMD는 최대 평균 차이(MMD) 제약을 갖춘 이중 스트림 모델을 사용하여 국소 및 글로벌 표현을 정렬함으로써 비IIDs 설정에서 통신 라운드 수를 20% 이상 감소시킨다. FedFusion은 학습 가능한 연산자를 사용해 국소 및 글로벌 모델의 특징을 융합함으로써 통신 라운드 수를 60% 이상 감소시키고 신규 클라이언트의 수렴 속도를 향상시키며, 정확도와 일반화 능력을 향상시킨다.

ABSTRACT

Federated learning (FL) enables on-device training over distributed networks consisting of a massive amount of modern smart devices, such as smartphones and IoT (Internet of Things) devices. However, the leading optimization algorithm in such settings, i.e., federated averaging (FedAvg), suffers from heavy communication costs and the inevitable performance drop, especially when the local data is distributed in a non-IID way. To alleviate this problem, we propose two potential solutions by introducing additional mechanisms to the on-device training. The first (FedMMD) is adopting a two-stream model with the MMD (Maximum Mean Discrepancy) constraint instead of a single model in vanilla FedAvg to be trained on devices. Experiments show that the proposed method outperforms baselines, especially in non-IID FL settings, with a reduction of more than 20% in required communication rounds. The second is FL with feature fusion (FedFusion). By aggregating the features from both the local and global models, we achieve higher accuracy at fewer communication costs. Furthermore, the feature fusion modules offer better initialization for newly incoming clients and thus speed up the process of convergence. Experiments in popular FL scenarios show that our FedFusion outperforms baselines in both accuracy and generalization ability while reducing the number of required communication rounds by more than 60%.

연구 동기 및 목표

비IIDs 데이터 분포 하에서 플러드러닝의 높은 통신 비용과 성능 저하 문제를 해결한다.
정확도를 훼손하지 않으면서 모델 수렴을 위해 필요한 통신 라운드 수를 줄인다.
플러드러닝 시스템에서 새로 참여하는 클라이언트의 모델 일반화 능력과 수렴 속도를 향상시킨다.
국소 모델과 글로벌 모델 간 지식 전달을 향상시키는 클라이언트 측 메커니즘을 도입한다.
실제 비IIDs 플러드러닝 환경에서 특징 융합과 MMD 기반 정렬의 효과성을 평가한다.

제안 방법

표준 플러드러닝에서 단일 모델을 국소 및 글로벌 브랜치로 구성된 이중 스트림 모델로 대체하여 표현 학습 능력을 향상시킨다.
클라이언트 측 학습 중에 최대 평균 차이(MMD) 손실을 적용하여 국소 및 글로벌 모델의 특징 분포를 정렬한다.
특징 추출 후 국소 및 글로벌 모델의 특징을 융합하는 모듈을 도입하며, 학습 가능한 가중치를 사용한다.
다양한 융합 연산자—단일, 다중, 및 컨볼루션형—을 사용하여 클라이언트 데이터에 기반해 관련 특징을 동적으로 선택하고 융합한다.
메인 모델과 함께 융합 모듈을 종단 간(end-to-end)으로 학습시켜 클라이언트가 글로벌 및 국소 지식을 통합하는 방식을 적응적으로 학습하도록 한다.
인공적 및 사용자 고유의 비IIDs 데이터 분할을 사용한 표준 플러드러닝 벤치마크에 방법을 적용하여 성능을 평가한다.

실험 결과

연구 질문

RQ1MMD 제약을 갖춘 이중 스트림 모델이 비IIDs 플러드러닝에서 성능 저하 없이 통신 라운드 수를 줄일 수 있는가?
RQ2국소 및 글로벌 모델 간 특징 융합이 플러드러닝에서 수렴 속도와 통신 효율성에 어떤 영향을 미치는가?
RQ3제안된 메커니즘이 플러드러닝에서 새로 참여하는 클라이언트의 일반화 능력을 어느 정도 향상시키는가?
RQ4단일, 다중, 또는 컨볼루션형 융합 연산자 중 어느 것이 정확도와 통신 비용 사이의 최적의 트레이드오프를 제공하는가?
RQ5실제 비IIDs 데이터 분포 하에서 제안된 방법이 FedAvg에 비해 최종 정확도와 수렴 속도 측면에서 뛰어난가?

주요 결과

FedMMD는 비IIDs 플러드러닝 환경에서 테스트 정확도를 유지하면서도 통신 라운드 수를 20% 이상 감소시킨다.
컨볼루션형 융합 연산자를 사용한 FedFusion은 FedAvg 대비 94% 정확도에 도달하기 위해 통신 라운드 수를 66.0% 감소시키고, 95% 정확도에 도달하기 위해 64.1% 감소시킨다.
다중 연산자를 사용한 FedFusion은 94% 정확도에서 통신 라운드 수를 22.0% 감소시키고, 95% 정확도에서 21.5% 감소시켜 일관된 향상을 보인다.
특징 융합 메커니즘이 새로 참여하는 클라이언트의 초기화를 향상시켜 그들의 수렴 과정을 크게 가속화한다.
사용자 고유의 비IIDs 분할에서 컨볼루션형 융합 연산자가 다른 것들보다 뛰어난 성능을 보이며, 이는 실제 플러드러닝 시나리오에 더 가까운 환경이다.
단일 융합 연산자는 최소한의 향상만을 제공하며 실질적 구현에는 권장되지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.