[论文解读] Robust Training of Federated Models with Extremely Label Deficiency
Twin-sight 引入一个双模型(监督式与无监督)范式,并附以邻域保持约束,在极端标签不足条件下的联邦半监督学习中缓解梯度冲突,在多个数据集上达到最先进的结果。
Federated semi-supervised learning (FSSL) has emerged as a powerful paradigm for collaboratively training machine learning models using distributed data with label deficiency. Advanced FSSL methods predominantly focus on training a single model on each client. However, this approach could lead to a discrepancy between the objective functions of labeled and unlabeled data, resulting in gradient conflicts. To alleviate gradient conflict, we propose a novel twin-model paradigm, called Twin-sight, designed to enhance mutual guidance by providing insights from different perspectives of labeled and unlabeled data. In particular, Twin-sight concurrently trains a supervised model with a supervised objective function while training an unsupervised model using an unsupervised objective function. To enhance the synergy between these two models, Twin-sight introduces a neighbourhood-preserving constraint, which encourages the preservation of the neighbourhood relationship among data features extracted by both models. Our comprehensive experiments on four benchmark datasets provide substantial evidence that Twin-sight can significantly outperform state-of-the-art methods across various experimental settings, demonstrating the efficacy of the proposed Twin-sight.
研究动机与目标
- 解决在带标签与未带标签的联邦客户端上由异质目标引起的梯度冲突。
- 提出一个双模型框架,将监督学习与无监督学习分离以降低梯度漂移。
- 引入邻域保持交互损失以对齐两个模型产生的表征。
- 在严重非IID设置下,在标准基准数据集上展示优于现有FSSL方法的性能。
提出的方法
- 提出一个双模型范式,其中监督模型(w_s)和无监督模型(w_u)在联邦数据上训练。
- 使用无监督的实例辨识目标函数(J^u)作为无监督模型在各客户端共用。
- 通过交叉熵对带标签数据训练监督模型(或对未标签客户端的高置信伪标签代理 J_t^s),实现有标签数据的训练。
- 引入 Twin-sight 损失 J_a,以保留由两个模型产生的特征之间的邻域关系,从而对齐它们的表征。
- 为带标签数据定义组合目标 J^l = J_m(w_s) + λ_u J^u(w_u) + λ_d J_a(w_s,w_u),为未标签数据定义 J^u = J_t^s(w_s) + λ_u J^u(w_u) + λ_d J_a(w_s,w_u)。
- 采用 FedAvg 风格的联邦优化,结合这两个模型的目标,在标准数据集上进行实验。
实验结果
研究问题
- RQ1双模型方法是否能够在极端标签不足的联邦半监督学习中缓解监督与无监督目标之间的梯度冲突?
- RQ2两个模型之间的邻域保持交互是否能在不同数据集和非IID设置下提升相互引导和总体性能?
- RQ3Twin-sight 与现有SOTA方法在完全标记、完全未标记和部分标记的联邦场景下的比较如何?
- RQ4Twin-sight 交互权重 λ_d 与无监督目标强度 λ_u 对性能和收敛有什么影响?
主要发现
- Twin-sight 在严重非IID设置下(γ=0.1, K=10)在 CIFAR-10、CIFAR-100、SVHN 和 FMNIST 上超越最先进基线。
- 在 CIFAR-10 上,Twin-sight 在 115 回合达到 70.06% 的准确率,优于竞争方法。
- 在 CIFAR-100 上,Twin-sight 在 400 回合达到 49.98% 的准确率,优于竞争方法。
- 在 SVHN 与 FMNIST 上,Twin-sight 分别在 125 和 140 回合达到 62.94% 和 79.95% 的准确率,超越若干基线。
- 在部分标记场景中,Twin-sight 在 CIFAR-10、CIFAR-100、SVHN 和 FMNIST 上显示显著改进,Ferrero(示例)在标记数据稀缺时尤为显著地展现稳健收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。