[论文解读] FLamby: Datasets and Benchmarks for Cross-Silo Federated Learning in Realistic Healthcare Settings
FLamby 提供一个开源的跨机构医疗保健联邦学习基准,包含7个现实世界数据集和基线模型,能够在自然的客户端切分上对 FL 策略进行可重复评估。
Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few ($2$--$50$) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~\url{www.github.com/owkin/flamby}.
研究动机与目标
- 提供一个现实且开源的、聚焦于医疗保保健的跨机构联邦学习基准。
- 提供具有自然客户端切分的数据集,以反映医院和模态之间在现实世界中的异质性。
- 提供基线模型和标准化的基准测试协议,以实现对 FL 策略的公平比较。
- 通过与现有 FL 框架的集成并提供模块化组件,促进可重复性与可扩展性。
提出的方法
- 汇集7个医疗数据集,具有跨模态和任务(分类、分割、生存分析)的自然客户端分区。
- 定义一个面向数据集、基线和 FL 策略的模块化 Python API,与 FedML 和 Fed-BioMed 等 FL 库兼容。
- 提供按客户端的训练/测试切分和汇聚的基线,以实现公平比较。
- 实现一组跨机构 FL 策略(例如 FedAvg、FedProx、SCAFFOLD、Cyclic Learning、FedAdam/Yogi/Adagrad),并提供用于基准测试的统一接口。
- 提供端到端基准测试的指南和脚本,在固定轮数下运行,且对 ML 与 FL 组件分别进行超参数调优。
- 包含可重复的代码和文档,以便扩展更多数据集、策略或隐私约束。
实验结果
研究问题
- RQ1在不同模态和任务上,真实世界、自然分区的医疗数据在跨机构联邦学习下的表现如何?
- RQ2哪些 FL 策略对医疗数据中的客户端间异质性最具鲁棒性?
- RQ3在这些现实的跨机构医疗数据集上,FL 策略能在多大程度上接近汇聚数据的表现?
- RQ4FLamby 基准是否支持跨 FL 方法和数据集的公平且可重复的比较?
主要发现
- 在某些数据集(例如 Fed-KITS2019 和 ISIC2019)上,某些 FL 策略的表现优于本地训练,但通常不如汇聚基线,除了 TCGA-BRCA 和 Heart-Disease。
- FedAdam、FedYogi 和 FedAdagrad(FedOpt 变体)在 FL 有所帮助的数据集上通常取得最佳性能。
- 循环学习和 FedAvg 通常是整套中较弱的基线,FedAvg 仅在 Camelyon16 和 IXI 上具有竞争力。
- 总体而言,跨机构 FL 在异质性医疗数据上仍然具有挑战性,强调需要更鲁棒的策略和对超参数的仔细调优。
- 该基准强调自然分区以反映现实世界的异质性,而非合成分区。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。