Skip to main content
QUICK REVIEW

[논문 리뷰] A review on different techniques used to combat the non-IID and heterogeneous nature of data in FL

Venkataraman Natarajan Iyer|arXiv (Cornell University)|2024. 01. 01.
Privacy-Preserving Technologies in Data인용 수 5
한 줄 요약

이 연구 리뷰는 비독립동등 분포(IIDX?) 비IID 및 이질적 데이터로부터 연합학습의 도전과제를 검토하고, 이러한 문제를 다루는 알고리즘들을 조사한다. FedAvg 변형, 앙상블 증류, 강건한 집계, 분산 상호 지식 전달을 포함.

ABSTRACT

Federated Learning (FL) is a machine-learning approach enabling collaborative model training across multiple decentralized edge devices that hold local data samples, all without exchanging these samples. This collaborative process occurs under the supervision of a central server orchestrating the training or via a peer-to-peer network. The significance of FL is particularly pronounced in industries such as healthcare and finance, where data privacy holds paramount importance. However, training a model under the Federated learning setting brings forth several challenges, with one of the most prominent being the heterogeneity of data distribution among the edge devices. The data is typically non-independently and non-identically distributed (non-IID), thereby presenting challenges to model convergence. This report delves into the issues arising from non-IID and heterogeneous data and explores current algorithms designed to address these challenges.

연구 동기 및 목표

  • 비 IID 및 이질적 데이터가 연합학습의 성능과 수렴에 왜 저해가 되는지 설명한다.
  • FL에서 데이터 이질성을 다루는 최신 알고리즘을 요약한다.
  • 데이터 파티션 전략을 비교하고 알고리즘 성능에 미치는 영향을 분석한다.
  • 비 IID 데이터 하에서 중앙집중식 대 탈중앙식 연합학습의 장점과 한계를 강조한다.

제안 방법

  • 연합학습의 기본 개념과 비 IID/이질성 도전을 소개한다.
  • 배경으로 FedAvg, FedProx, FedNova, SCAFFOLD를 제시하고 요약한다.
  • 세 가지 기법 흐름: 앙상블 증류(FedDF), 데이터-레이블 인식에 의한 강건한 집계(FedLbl), 분산 상호 지식 전달(Def-KT)를 설명한다.
  • FedDF 증류 과정을 자세히 다루고, 앙상블 교사-학생 융합 및 KL-발산 손실을 포함한다.
  • 글로벌 집계 가중치를 조정하기 위한 라벨 다양성에 의한 FedLbl의 그룹화 를 설명한다.
  • 상호 의존 손실과 피어-투-피어 가중치 업데이트를 갖는 Def-KT의 상호 지식 전달을 개요한다.
Figure 1: Federated learning
Figure 1: Federated learning

실험 결과

연구 질문

  • RQ1비 IID 및 이질적 데이터가 기존 FL 알고리즘에 미치는 영향은 무엇인가?
  • RQ2앙상블 증류, 강건한 집계 또는 분산 학습이 비 IID 효과를 어떻게 완화할 수 있는가?
  • RQ3제안된 방법들이 비 IID 설정하에서 표준 데이터세트와 아키텍처 전반에서 어떻게 성능을 보이는가?

주요 결과

  • 비 IID 데이터는 모델 정확도와 수렴을 저하시킨다. 참여도와 로컬 에폭에 더 민감하다.
  • FedDF는 이질적 데이터하에서 정확도와 수렴을 향상시키고, 더 많은 로컬 에폭으로 목표 정확도에 도달하는 라운드를 줄인다.
  • FedLbl은 라벨 다양성 및 데이터 용량에 따라 업데이트를 가중치화하여 정확도와 수렴에서 FedAvg와 FedSGD보다 우수하다.
  • Def-KT는 다수의 데이터셋과 클라이언트 수에서 비 IID 환경에서 기준선보다 더 높은 글로벌 정확도와 덜 흔들림을 달성한다.
  • FedProx는 일부 왜곡 설정에서 이질성에 대한 강건성을 보이고, 반면 SCAFFOLD와 같은 방법은 부분 참여에서 덜 안정적일 수 있다.
Figure 2: Heterogeneous data
Figure 2: Heterogeneous data

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.