QUICK REVIEW

[论文解读] Byzantine-Robust Federated Machine Learning through Adaptive Model Averaging

Luis Muñoz-González, Kenneth T. Co|arXiv (Cornell University)|Sep 11, 2019

Privacy-Preserving Technologies in Data参考文献 25被引用 161

一句话总结

自适应联邦平均（Adaptive Federated Averaging，AFA）通过使用隐马尔可夫模型和基于余弦相似性的过滤来估计每个客户端的更新质量，从而鲁棒地汇聚联邦学习中的客户端更新，阻止坏客户端以提高鲁棒性和效率。

ABSTRACT

Federated learning enables training collaborative machine learning models at scale with many participants whilst preserving the privacy of their datasets. Standard federated learning techniques are vulnerable to Byzantine failures, biased local datasets, and poisoning attacks. In this paper we introduce Adaptive Federated Averaging, a novel algorithm for robust federated learning that is designed to detect failures, attacks, and bad updates provided by participants in a collaborative model. We propose a Hidden Markov Model to model and learn the quality of model updates provided by each participant during training. In contrast to existing robust federated learning schemes, we propose a robust aggregation rule that detects and discards bad or malicious local model updates at each training iteration. This includes a mechanism that blocks unwanted participants, which also increases the computational and communication efficiency. Our experimental evaluation on 4 real datasets show that our algorithm is significantly more robust to faulty, noisy and malicious participants, whilst being computationally more efficient than other state-of-the-art robust federated learning methods such as Multi-KRUM and coordinate-wise median.

研究动机与目标

在拜占庭故障与数据异质性下仍具鲁棒性且有效的联邦学习的动机。
提出自适应联邦平均（AFA），通过估计的更新质量和数据贡献来对客户端更新进行加权。
开发贝叶斯/隐藏马尔可夫模型框架，以学习并更新客户端提供良好更新的概率。
引入能够检测并舍弃坏更新且可以阻止作恶客户端的鲁棒聚合规则。
在多种真实数据集上，在不同攻击情景下对比最先进方法评估AFA。

提出的方法

使用带有数据贡献和一个学习得到的良好更新概率（p_k）的权重方案来聚合更新。
将 w_{t+1} 计算为选定良好客户端的加权和，归一化为 N = sum(p_k n_k)。
对每个客户端，计算 w_{t+1} 与 w_{t+1}^k 的相似度 s_k（如余弦相似度）。
使用 s_k 的样本统计量（均值、中位数、标准差）将更新分为良好/坏，阈值由 xi 控制，迭代更新（xi 增量）。
重复（可能多轮）以阻止可疑客户端，并仅使用良好集合 G 重新聚合。
用隐藏马尔可夫模型对客户端质量进行建模，其中 g_t^k 是（未观测的）质量状态，o_t^k 是聚合规则的观测结果；更新后验并设定 p_{k,t} = E[G_t^k | O_{1:t}^k]。
当 Pr(G_t^k | O_{1:t}^k) ≤ 0.5 时阻塞客户端，采用 Beta-Bernoulli 更新（alpha_t^k, beta_t^k）和阈值 delta。
复杂度：使用余弦相似度的聚合为 O(K_t d)，低于 MKRUM 的 O(K_t^2 d)，并且比某些基于中位数的方法更具可扩展性。
在 MNIST、FMNIST、Spambase、CIFAR-10 的正常、拜占庭、标签翻转和有噪声的客户端场景中进行实验验证，并与 FA、MKRUM、COMED 进行对比。

实验结果

研究问题

RQ1在有限的客户端提供错误、嘈杂或恶意更新的情况下，联邦学习如何保持鲁棒性？
RQ2是否可以在考虑数据贡献和更新质量的情况下使用自适应加权方案在不产生过多计算或通信开销的情况下提高鲁棒性？
RQ3基于隐藏马尔可夫模型的客户端更新质量估计是否能够实时有效识别并阻止坏客户端？
RQ4AFA 相较于现有的鲁棒聚合规则（MKRUM、COMED）在不同攻击场景下的准确性、收敛性和效率方面如何？

主要发现

AFA 在四个真实数据集上，在拜占庭、标签翻转和有噪声的客户端场景下实现鲁棒性能，常常优于 MKRUM 和 COMED。
AFA 在不利条件下收敛更快，测试误差更低，同时比 MKRUM 和 COMED 的计算开销更低或相当。
贝叶斯模型可以在相对较少的迭代次数内检测并阻止坏客户端（通常约 5–10 次），从而减少通信。
与标准的 Federated Averaging（FA）相比，AFA 对恶意输入仍然鲁棒，尤其在翻转和拜占庭攻击下，稳定性和准确性有所提升。
阻止坏客户端可减少不必要的通信，在剔除恶意节点时也可降低服务器端计算。
AFA 在聚合时间上相较于 MKRUM 和 COMED 显示出显著的效率提升，同时保持强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。