[논문 리뷰] DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning
DriftGuard는 데이터 드리프트에 대해 글로벌 및 그룹별 업데이트를 분리하여 연합학습에서 재학습 비용을 줄이면서 비동기 데이터 드리프트 하에서도 정확도를 유지하거나 향상시키는 Mixture-of-Experts에서 영감을 받은 아키텍처를 사용합니다.
In real-world Federated Learning (FL) deployments, data distributions on devices that participate in training evolve over time. This leads to asynchronous data drift, where different devices shift at different times and toward different distributions. Mitigating such drift is challenging: frequent retraining incurs high computational cost on resource-constrained devices, while infrequent retraining degrades performance on drifting devices. We propose DriftGuard, a federated continual learning framework that efficiently adapts to asynchronous data drift. DriftGuard adopts a Mixture-of-Experts (MoE) inspired architecture that separates shared parameters, which capture globally transferable knowledge, from local parameters that adapt to group-specific distributions. This design enables two complementary retraining strategies: (i) global retraining, which updates the shared parameters when system-wide drift is identified, and (ii) group retraining, which selectively updates local parameters for clusters of devices identified via MoE gating patterns, without sharing raw data. Experiments across multiple datasets and models show that DriftGuard matches or exceeds state-of-the-art accuracy while reducing total retraining cost by up to 83%. As a result, it achieves the highest accuracy per unit retraining cost, improving over the strongest baseline by up to 2.3x. DriftGuard is available for download from https://github.com/blessonvar/DriftGuard.
연구 동기 및 목표
- 현실 세계의 연합학습(FL) 배치에서 비동기 데이터 드리프트를 동기 부여하고 해결합니다.
- 전역으로 전달 가능한 지식과 그룹별 적응을 분리하는 확장 가능한 지속적 학습 프레임워크를 제안합니다.
- 전역 공유 매개변수와 그룹별 로컬 매개변수를 선택적으로 업데이트하여 재학습 비용을 줄입니다.
- 정확도와 시스템 오버헤드를 균형 있게 조절하기 위해 장치 클러스터링과 2단계 재학습을 가능하게 합니다.
제안 방법
- 공유(전역)와 로컬(그룹별) 분기로 매개변수를 분할하는 Mixture-of-Experts (MoE) 아키텍처를 채택합니다.
- 브랜치 수준 소프트 게이팅과 레이어 수준 하드 게이팅을 사용하여 전문가를 동적으로 활성화하고 데이터 분포에 따라 디바이스를 클러스터링합니다.
- 장치 관찰로부터 얻은 집계 게이팅 행렬을 사용하여 서버에서 디바이스를 클러스터링하고 비슷한 데이터 드리프트를 가진 그룹을 형성합니다.
- 매 시점마다 두 가지 재학습 구성을 생성합니다: 전역 드리프트가 감지될 때 공유 매개변수의 전역 재학습과 저하된 그룹 내 로컬 매개변수의 그룹 재학습.
- 관련 매개변수 부분집합만 업데이트하기 위해 2단계 방식으로 재학습을 수행하고 FLOPs를 감소시킵니다.
- 전통적인 FCL 및 클러스터링 베이스라인과 비교하여 여러 모델-데이터세트 쌍과 Raspberry Pi 기반 IoT 프로토타입에서 DriftGuard를 평가합니다.
실험 결과
연구 질문
- RQ1고비용 없이 비동기 데이터 드리프트를 다루도록 FL 재학습을 효과적으로 분리할 수 있는 방법은?
- RQ2MoE 기반 아키텍처가 높은 정확도를 유지하면서 비용을 절감하는 선택적 글로벌 및 그룹 재학습을 가능하게 할 수 있을까?
- RQ3데이터 분포로 디바이스를 클러스터링하는 것이 비동기 환경에서 재학습 효율과 정확도를 향상시킬까?
- RQ4비동기 드리프트 하에서 글로벌 매개변수 업데이트와 그룹별 업데이트 간의 트레이드오프는 무엇인가?
- RQ5다양한 데이터세트, 모델, 및 실제 IoT 하드웨어에서 DriftGuard의 성능은 어떠한가?
주요 결과
- DriftGuard는 강력한 베이스라인과 동등하거나 더 높은 정확도를 달성하면서 총 재학습 비용을 최대 83%까지 감소시킵니다.
- DriftGuard는 재학습 비용당 최고 정확도를 달성하며, 가장 강력한 베이스라인보다 최대 2.3배 더 높은 정확도입니다.
- 실세계 IoT 프로토타입(20대의 Raspberry Pi 4 디바이스)에서 DriftGuard는 가장 높은 정확도를 달성하고 재학습 시간을 최대 20%까지 단축합니다.
- 2단계 재학습(전역 공유 매개변수 및 그룹별 로컬 매개변수)은 전역적으로 전달 가능한 지식을 공유하면서 비동기 드리프트에 효율적으로 적응하도록 합니다.
- 장치 그룹화는 원시 데이터를 공유하지 않고 MoE 게이팅 출력으로 비슷한 데이터 분포를 클러스터링합니다.
- 평가에는 세 가지 데이터세트(DG5, PACS, DomainNet)와 네 가지 모델 변형(cResNet-S/M, cViT-S/M)이 포함됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.