[논문 리뷰] FLamby: Datasets and Benchmarks for Cross-Silo Federated Learning in Realistic Healthcare Settings
FLamby는 7개의 실제 세계 데이터셋과 기본 모델을 갖춘 오픈 소스 크로스-사일로 헬스케어 연합 학습 벤치마크를 제공하여 자연스러운 클라이언트 분할에 대한 FL 전략의 재현 가능한 평가를 가능하게 합니다.
Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few ($2$--$50$) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~\url{www.github.com/owkin/flamby}.
연구 동기 및 목표
- 헬스케어를 중심으로 한 현실적이고 오픈 소스인 크로스-사일로 연합 학습 벤치마크를 제공한다.
- 병원과 모달리티 간의 실제 이질성을 반영하기 위해 자연스러운 클라이언트 분할이 있는 데이터셋을 제공한다.
- FL 전략의 공정한 비교를 가능하게 하는 기본 모델과 표준화된 벤치마킹 프로토콜을 제공한다.
- 기존 FL 프레임워크와의 통합 및 모듈형 구성요소 제공을 통해 재현성 및 확장성을 촉진한다.
제안 방법
- 모달리티와 작업(분류, 세분화, 생존)에 걸친 자연스러운 클라이언트 분할이 있는 7개의 헬스케어 데이터셋을 구성한다.
- FedML 및 Fed-BioMed와 같은 FL 라이브러리와 호환되는 데이터셋, 베이스라인 및 FL 전략을 위한 모듈형 Python 기반 API를 정의한다.
- 공정한 비교를 가능하게 하는 개별 클라이언트의 학습/테스트 분할 및 풀링 기반 베이스라인을 제공한다.
- 벤치마킹을 위한 공통 인터페이스를 갖춘 크로스-실로 FL 전략 세트를 구현한다(예: FedAvg, FedProx, Scaffold, Cyclic Learning, FedAdam/Yogi/Adagrad).
- 고정된 라운드와 ML 및 FL 구성요소에 대해 별도로 하이퍼파라미터 튜닝을 수행하는 엔드투엔드 벤치마크 실행 가이드와 스크립트를 제공한다.
- 추가 데이터셋, 전략 또는 프라이버시 제약 조건으로 확장을 용이하게 하는 재현 가능한 코드와 문서를 포함한다.
실험 결과
연구 질문
- RQ1다양한 모달리티와 작업에서 실제로 부분 분할된 헬스케어 데이터셋이 크로스-사일로 연합 학습에서 어떻게 작동하는가?
- RQ2헬스케어 데이터에서 관찰되는 클라이언트 간 이질성에 가장 강건한 FL 전략은 무엇인가?
- RQ3이 현실적인 크로스-사일로 헬스케어 데이터셋에서 FL 전략이 풀링된 데이터 성능에 어느 정도 근접할 수 있는가?
- RQ4FLamby 벤치마크가 FL 방법 및 데이터셋 간 공정하고 재현 가능한 비교를 지원하는가?
주요 결과
- 일부 FL 전략은 특정 데이터셋에서 로컬 학습보다 우수한 성능을 보이나 일반적으로 풀링 기준선보다 낮은 편이며, 다만 TCGA-BRCA와 Heart-Disease에서는 예외가 있다.
- FedAdam, FedYogi, 및 FedAdagrad(FedOpt 변형)는 FL이 도움이 되는 데이터셋에서 FL 전략 중 가장 좋은 성능을 얻는 경우가 많다.
- 사이클릭 학습 및 FedAvg은 전체 세트에서 일반적으로 약한 벤치마크이며, Camelyon16 및 IXI에서만 FedAvg가 경쟁력이 있다.
- 전반적으로 이질적인 헬스케어 데이터에서 크로스-사일로 FL은 여전히 도전적이며, 더 견고한 전략과 신중한 하이퍼파라미터 튜닝의 필요성을 강조한다.
- 벤치마크는 합성 분할보다는 실제 세계의 이질성을 반영하기 위해 자연스러운 분할에 중점을 둔다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.