QUICK REVIEW

[논문 리뷰] Federated Continual Learning with Weighted Inter-client Transfer

Jaehong Yoon, Wonyong Jeong|arXiv (Cornell University)|2020. 03. 06.

Domain Adaptation and Few-Shot Learning참고 문헌 39인용 수 31

한 줄 요약

FedWeIT은 모델 가중치를 글로벌(global), 베이스(base), 그리고 작업 적응(task-adaptive) 부분으로 분해하여 클라이언트 간 지식 전달을 선택적으로 가능하게 하고, 커뮤니케이션을 희소화하여 연합 continual 학습을 개선합니다.

ABSTRACT

There has been a surge of interest in continual learning and federated learning, both of which are important in deep neural networks in real-world scenarios. Yet little research has been done regarding the scenario where each client learns on a sequence of tasks from a private local data stream. This problem of federated continual learning poses new challenges to continual learning, such as utilizing knowledge from other clients, while preventing interference from irrelevant knowledge. To resolve these issues, we propose a novel federated continual learning framework, Federated Weighted Inter-client Transfer (FedWeIT), which decomposes the network weights into global federated parameters and sparse task-specific parameters, and each client receives selective knowledge from other clients by taking a weighted combination of their task-specific parameters. FedWeIT minimizes interference between incompatible tasks, and also allows positive knowledge transfer across clients during learning. We validate our FedWeIT against existing federated learning and continual learning methods under varying degrees of task similarity across clients, and our model significantly outperforms them with a large reduction in the communication cost. Code is available at https://github.com/wyjeong/FedWeIT

연구 동기 및 목표

연합 연속 학습(FCL)을 동기 부여하고 서로 다른 클라이언트 간의 관련 없는 지식으로 인한 간섭을 해결한다.
글로벌, 베이스 및 작업-적응 지식을 분리하는 분해된 매개변수화를 제안한다.
작업-적응 매개변수에 대한 주의(attention)를 통해 클라이언트 간 지식 전달을 선택적으로 가능하게 한다.
통신 비용을 줄이면서 희소성을 유지하거나 향상된 작업 성능을 달성한다.
다양한 작업 유사성 시나리오에서 우수한 성능과 더 빠른 적응력을 입증한다.

제안 방법

로컬 모델을 분해한다: θ_c^(t) = B_c^(t) ⊙ m_c^(t) + A_c^(t) + sum_{i≠c} sum_{j<|t|} α_i,j^(t) A_i^(j).
전역 매개변수 θ_G를 클라이언트 간 희소화된 B_c^(t) ⊙ m_c^(t)를 모아 유도하여 사용한다.
다른 클라이언트의 작업-적응 매개변수 A를 희소하고 주의(weighted)로 가중합하여 지식 전달을 표현한다.
마스크 m_c^(t) 와 A^(t) 에 대한 희소성 제약 및 과거 작업 해법을 유지하기 위한 역행 업데이트로 학습을 규제한다.
통신 비용을 최소화하기 위해 희소하고 고-impact한 매개변수만 전송한다.

실험 결과

연구 질문

RQ1연합 연속 학습은 클라이언트 간 작업 특화 지식을 선택적으로 전송하는 것에서 이점을 얻을 수 있는가?
RQ2간섭과 통신을 최소화하면서 성능을 유지하기 위해 매개변수를 어떻게 분해하고 전달해야 하는가?
RQ3Attention 기반의 클라이언트 간 전달이 다양한 작업 유사성에서 적응 속도와 최종 정확도를 향상시키는가?
RQ4FedWeIT가 여러 데이터셋에서 기저모델 대비 통신비용과 정확도 간의 트레이드오프를 어떻게 나타내는가?
RQ5FedWeIT 접근법이 더 큰 네트워크와 더 많은 클라이언트에서도 효과를 잃지 않고 확장 가능한가?

주요 결과

FedWeIT은 Overlapped-CIFAR-100 및 NonIID-50 작업에서 단일 작업, 지속 학습 및 순진한 FCL 기반선보다 상당히 우수한 성능을 보인다.
선택적 교차-클라이언트 전달로 새로운 작업에 빠르게 적응하고 망각이 줄어든다.
주의 메커니즘이 다른 클라이언트로부터 이익이 되는 작업-적응 매개변수를 효과적으로 선택한다(예: 유사한 데이터셋 매칭).
FedWeIT은 희소한 작업-적응 및 베이스 매개변수를 전송하여 커뮤니케이션 비용을 줄이면서 정확도는 유지 또는 향상시킨다.
ResNet-18 실험에서 FedWeIT은 매개변수가 적은 APD 기반선보다 더 높은 성능을 보인다.
100개의 클라이언트에 걸쳐 FedWeIT은 강한 성능 향상을 보이고 클라이언트 간 간섭을 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.