QUICK REVIEW

[논문 리뷰] Overcoming Forgetting in Federated Learning on Non-IID Data

Neta Shoham, Tomer Avidor|arXiv (Cornell University)|2019. 10. 17.

Privacy-Preserving Technologies in Data참고 문헌 17인용 수 143

한 줄 요약

본 논문은 Elastic Weight Consolidation(EWC)을 연합 학습에 적용하여 FedCurv를 제안하고, 비독립동등분포(non-IID) 데이터에서의 망각을 방지하고 수렴 속도를 높이며 전체 참여와 효율적인 대역폭 사용을 달성한다.

ABSTRACT

We tackle the problem of Federated Learning in the non i.i.d. case, in which local models drift apart, inhibiting learning. Building on an analogy with Lifelong Learning, we adapt a solution for catastrophic forgetting to Federated Learning. We add a penalty term to the loss function, compelling all local models to converge to a shared optimum. We show that this can be done efficiently for communication (adding no further privacy risks), scaling with the number of nodes in the distributed setting. Our experiments show that this method is superior to competing ones for image recognition on the MNIST dataset.

연구 동기 및 목표

로컬 모델이 서로 멀어지는 비 IID 데이터에서의 연합 학습 도전을 제시한다.
레이즌 루프(라운드) 간에 중요한 매개변수를 보존하기 위해 지속 학습(Lifelong Learning)에서 영감을 받은 페널티를 채택한다.
프라이버시와 대역폭을 보존하면서 곡률 정보를 공유하도록 FedCurv를 개발한다.
MNIST에서 FedCurv가 기준선보다 수렴 및 확장성 측면에서 개선을 보임을 제시한다.
라운드당 큰 로컬 에폭(E)이 망각 완화와 어떤 상호작용을 하는지 탐구한다.

제안 방법

Federated Learning에 Elastic Weight Consolidation(EWC)을 적용하여 FedCurv를 형성한다.
각 라운드에서 각 노드는 다른 노드의 대각 Fisher 정보 diag(I)를 포함하는 페널티를 더한 로컬 손실을 최적화한다.
개인정보를 보존하고 대역폭을 낮게 유지하기 위해 노드 간에 필요한 합산된 그래디언트 관련 정보만 공유한다.
라운드 손실을 L_t,s(θ) + ∑_{j≠t} (θ−θ̂_{t-1,j})^T diag(Ĩ_{t-1,j}) (θ−θ̂_{t-1,j})의 형태로 표현한다.
θ̂_t를 이전 라운드의 노드 매개변수 평균으로 초기화하고 E개의 로컬 SGD 에포크를 수행한다.
최소한의 커뮤니케이션으로 페널티 항을 재구성하고 보안 집계를 가능하게 하기 위해 두 개의 합산 벡터 u_t와 v_t를 유지한다.

실험 결과

연구 질문

RQ1FedCurv가 수렴 속도와 최종 정확도 측면에서 비 IID 데이터에서 FedAvg와 FedProx를 능가하는가?
RQ2라운드당 로컬 에폭 E의 수가 비 IID 분포에서 성능에 어떤 영향을 미치는가?
RQ3곡률 기반 페널티를 FedAvg와 유사하게 저대역폭으로 구현하고 프라이버시를 보존할 수 있는가?
RQ4FedCurv에서 전체 참여와 부분 참여의 차이가 어떤 영향을 미치는가?
RQ5시뮬레이션된 연합 학습 설정에서 노드 수가 증가할 때 FedCurv가 어떻게 확장되는가?

주요 결과

FedCurv는 FedAvg보다 더 빠르게 수렴하며, 특히 더 큰 E(예: 50)에서 더 빠르게 90% 정확도를 달성하는 경향이 있다.
E=50일 때 FedCurv는 9 라운드에서 90%에 도달하고 38 라운드에서 95%에 도달하여 비 IID MNIST 설정에서 FedAvg와 FedProx를 능가한다.
E=10에서도 FedCurv는 90%에 35라운드, 95%에 99라운드로 대안들보다 우수하다.
FedProx는 FedAvg보다 개선되나, 더 높은 E 값에서 최상위 정확도 달성 측면에서 FedCurv보다 효과가 떨어진다.
본 방법은 합산된 그래디언트 관련 정보만 공유하여 프라이버시를 보존하며 FedAvg와 유사하게 보안 집계를 사용할 수 있다.
성능 저하 없이 희소 대각 Fisher 정보를 활용하여 대역폭을 추가로 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.