QUICK REVIEW

[论文解读] Measuring the Effects of Non-Identical Data Distribution for Federated Visual Classification

Harry Chia-Hung Hsu, Hang Qi|arXiv (Cornell University)|Sep 13, 2019

Privacy-Preserving Technologies in Data参考文献 12被引用 640

一句话总结

本论文使用 Dirichlet 模型合成非完全相同的客户端数据分布，以研究 FedAvg 的性能，随着分布的偏离而退化，并提出通过服务器端动量（FedAvgM）来缓解这一差距。

ABSTRACT

Federated Learning enables visual models to be trained in a privacy-preserving way using real-world data from mobile devices. Given their distributed nature, the statistics of the data across these devices is likely to differ significantly. In this work, we look at the effect such non-identical data distributions has on visual classification via Federated Learning. We propose a way to synthesize datasets with a continuous range of identicalness and provide performance measures for the Federated Averaging algorithm. We show that performance degrades as distributions differ more, and propose a mitigation strategy via server momentum. Experiments on CIFAR-10 demonstrate improved classification performance over a range of non-identicalness, with classification accuracy improved from 30.1% to 76.9% in the most skewed settings.

研究动机与目标

激励并量化跨客户端的非-identical 数据分布如何影响联邦视觉分类。
开发一种合成数据生成方法，使用 Dirichlet 先验在分布相同程度上覆盖一个连续区间。
在 CIFAR-10 上对不同的非-identicalness 和超参数进行 FedAvg 基准测试。
提出并评估通过服务器端动量（FedAvgM）来改善收敛性和准确性的缓解办法。

提出的方法

将客户端数据分布定义为包含 N 类的分类分布，取自 Dirichlet(alpha * p)。
通过改变 alpha，从完全相同到高度非相同的客户端数据创建一个连续光谱。
使用 CIFAR-10，100 个客户端，每个客户端 500 张图像，以及一个类似 McMahan 等人的 CNN，固定权重衰减且不进行学习率衰减。
在 10,000 轮中以 B=64 进行 FedAvg，E 取 {1,5}，C 取 {0.05,0.1,0.2,0.4}，对 eta 进行超参数搜索。
探索服务器端动量：v <- beta v + Delta w; w <- w - v，即带有 Nesterov 动量的 FedAvgM。

实验结果

研究问题

RQ1跨客户端的非-identical 数据分布如何影响视觉分类任务中的 FedAvg 性能？
RQ2基于 Dirichlet 的客户端数据分布合成是否能捕捉到一个连续的相同程度范围并揭示超参数的敏感性？
RQ3引入服务器端动量（FedAvgM）是否能缓解由数据非-identical 性引起的性能退化？
RQ4在不同数据偏斜下，超参数敏感性（学习率、动量、本地训练轮次、参与比例）是什么？
RQ5在非 IID 条件下，FedAvgM 能在多大程度上逼近集中学习的性能？

主要发现

分类准确率随着 Dirichlet 浓度 alpha 下降而退化（数据更不相同）。
提高报告比例 C 会产生回报递减，特别是在非相同数据下，且同步更新（E）效果参差不齐。
在非相同数据上，FedAvgM 始终优于 FedAvg 的测试准确率，常接近集中学习的性能（如在许多案例接近 86.0%）。
最优有效服务器学习率 eta_eff = eta / (1 - beta) 随 C 与 E 而变化，对于较大 C 的可行窗口更宽，对小 C 的更窄。
更高的本地轮次 E 增加更新方差，需降低 eta_eff 以维持稳定性；在这些条件下 FedAvgM 有助于稳定。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。