QUICK REVIEW

[论文解读] LEAF: A Benchmark for Federated Settings

Sebastian Caldas, Duddu, Sai Meher Karthik|arXiv (Cornell University)|Dec 3, 2018

Privacy-Preserving Technologies in Data参考文献 36被引用 285

一句话总结

LEAF 提供了一个模块化的开源基准，用于联邦学习、元学习和多任务学习，包括数据集、评估指标和参考实现，以反映现实的联邦环境。

ABSTRACT

Modern federated networks, such as those comprised of wearable devices, mobile phones, or autonomous vehicles, generate massive amounts of data each day. This wealth of data can help to learn models that can improve the user experience on each device. However, the scale and heterogeneity of federated data presents new challenges in research areas such as federated learning, meta-learning, and multi-task learning. As the machine learning community begins to tackle these challenges, we are at a critical time to ensure that developments made in these areas are grounded with realistic benchmarks. To this end, we propose LEAF, a modular benchmarking framework for learning in federated settings. LEAF includes a suite of open-source federated datasets, a rigorous evaluation framework, and a set of reference implementations, all geared towards capturing the obstacles and intricacies of practical federated environments.

研究动机与目标

在联邦设置中捕捉统计、系统和隐私挑战的现实基准的必要性成为动机。
提供一个模块化框架（数据集、指标、参考实现）来研究联邦学习、元学习和多任务学习。
提供开源数据集和标准化预处理，以在不同设备和分布下实现可重复的实验。
提出反映边缘设备上的性能分布和资源使用的评估方法。
通过具有代表性的实验与管道，展示 LEAF 的模块化和可重复性。

提出的方法

策划六个现实的联邦数据集（FEMNIST、Sentiment140、Shakespeare、CelebA、Reddit、Synthetic），并具有自然的设备级分区。
定义一个具有数据集、指标和参考实现的模块化框架，能够记录统计和系统指标。
引入基于百分位和层级的性能指标，以捕捉跨设备的分布和资源方面。
提供基线和参考算法（FedAvg、minibatch SGD），并计划扩展到更多方法与范式。
通过重现 Shakespeare 的 FedAvg 收敛行为并探索数据缺乏与边缘计算指标来证明 LEAF 的可重复性。
通过将 LEAF 数据集整合到多种实验设置中（本地模型、混合数据、带 Reptile 的元学习），展示管道的模块化。

实验结果

研究问题

RQ1如何使用反映现实世界异质性和设备规模约束的数据集对联邦设置进行基准测试？
RQ2哪些指标能够同时有效捕捉跨设备的统计性能和边缘资源的使用？
RQ3在现实的联邦数据分布和不同本地训练 regimes 下，标准联邦学习基线（如 FedAvg）的表现如何？
RQ4LEAF 的数据集和管道是否能揭示在特定联邦数据集上，某些建模方法（如本地模型 vs 全局模型 vs 元学习）更为合适？
RQ5数据推迟和设备参与对联邦设置中的可重复性和评估有何影响？

主要发现

LEAF 通过在本地训练 epoch 设置下重现实 Shakespeare 的 FedAvg 收敛/发散模式，实现了可重复的实验。
LEAF 提供了粒度统计和系统指标，展示了每个用户最小样本数的变化如何影响性能分布（如 Sentiment140）。
FedAvg 在多数数据集上通常提供有利的系统权衡（通信与本地计算之间），尽管结果因任务和数据分区而异。
在表 2 的演示中，不同管道（本地模型、全局 IID、Reptile）在各数据集上得到不同的准确性，体现了 LEAF 的模块化和数据集特定行为。
这六个 LEAF 数据集覆盖从数千到数百万级设备的规模以及每设备数据的偏斜，反映现实的联邦环境。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。