QUICK REVIEW

[논문 리뷰] A Survey on Class Imbalance in Federated Learning

Jing Zhang, Chuanwen Li|arXiv (Cornell University)|2023. 03. 21.

Imbalanced Data Classification Techniques인용 수 9

한 줄 요약

이 논문은 연합학습의 클래스 불균형에 대한 포괄적 검토를 제공하며, 불균형 유형, 개인정보 보호 기반 추정 방법, 완화 전략, 평가 지표 및 향후 방향을 상세히 다룬다.

ABSTRACT

Federated learning, which allows multiple client devices in a network to jointly train a machine learning model without direct exposure of clients' data, is an emerging distributed learning technique due to its nature of privacy preservation. However, it has been found that models trained with federated learning usually have worse performance than their counterparts trained in the standard centralized learning mode, especially when the training data is imbalanced. In the context of federated learning, data imbalance may occur either locally one one client device, or globally across many devices. The complexity of different types of data imbalance has posed challenges to the development of federated learning technique, especially considering the need of relieving data imbalance issue and preserving data privacy at the same time. Therefore, in the literature, many attempts have been made to handle class imbalance in federated learning. In this paper, we present a detailed review of recent advancements along this line. We first introduce various types of class imbalance in federated learning, after which we review existing methods for estimating the extent of class imbalance without the need of knowing the actual data to preserve data privacy. After that, we discuss existing methods for handling class imbalance in FL, where the advantages and disadvantages of the these approaches are discussed. We also summarize common evaluation metrics for class imbalanced tasks, and point out potential future directions.

연구 동기 및 목표

연합 학습에서의 클래스 불균형 유형(로컬, 글로벌, 그리고 불일치를 포함한)을 도입하고 분류한다.
개인정보 보호 제약하에 글로벌 클래스 분포를 추정하는 방법을 검토한다.
학습, 샘플링, 클러스터링 기법을 포함하여 FL의 클래스 불균형을 완화하는 접근법을 조사한다.
불균형 FL 작업을 위한 평가 지표를 요약하고 도전과제 및 향후 방향을 논의한다.

제안 방법

FL를 정의하고 모델을 수평적(horizontal), 수직적(vertical), 연합 전이 학습(federated transfer learning)으로 분류한다.
로컬, 글로벌, 그리고 불일치 불균형을 정의하고 이들이 FL 성능에 미치는 영향을 설명한다.
클래스 분포 추정 방법을 검토한다: 로컬 분포에서의 분포 도출, 모델 매개변수 기반 추정, 클러스터링 기반 접근법, 그리고 하향식(bottom-up) 추정.
불균형 FL 작업에 사용되는 평가 지표와 개인정보 고려사항을 논의한다.
완화 전략에 대한 체계적인 고찰과 향후 연구 방향을 제공한다.

실험 결과

연구 질문

RQ1연합 학습에서의 클래스 불균형의 다양한 형태는 무엇이며 로컬 및 글로벌하게 어떻게 발생하는가?
RQ2개인 클라이언트 데이터를 노출하지 않고 글로벌 클래스 분포를 어떻게 추정할 수 있는가?
RQ3FL에서 클래스 불균형을 완화하기 위한 방법은 무엇이 있으며 각각의 트레이드오프는 무엇인가?
RQ4불균형한 FL 시나리오에 적합한 평가 지표는 무엇이며 남아 있는 개인정보 문제는 무엇인가?

주요 결과

FL에서의 클래스 불균형은 로컬, 글로벌, 그리고 불일치 수준에서 발생할 수 있으며 각 수준은 모델 성능에 고유한 도전을 제기한다.
글로벌 불균형은 글로벌 모델의 악화를 초래하고 수렴 문제를 일으킬 수 있으며, 로컬 불균형은 로컬 모델을 해치고 결과적으로 글로벌 모델도 해친다.
원시 데이터를 공유하지 않으면서 모델 매개변수, 기울기, 손실 또는 집계 신호로부터 글로벌 분포를 추론하는 개인정보 보호 추정 방법이 있다.
가중치 기반 기울기, 데이터 증가, 클라이언트 클러스터링, 기여를 균형 있게 조정하기 위한 적응적 참여 등 다양한 완화 전략이 존재한다.
경향성 분포에서 성능 저하를 강조하는 실증적 근거로, 불균형이 커질수록 정확도가 떨어진다는 MNIST 기반 구체적 예시(Gamma 값들)로 나타난다.
분포 기반, 모델 신호 기반, 클러스터링, 하향식(bottom-up) 추정의 방법 분류학은 FL 불균형 처리의 현재 상태와 격차를 구조화된 시각으로 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.