QUICK REVIEW

[論文レビュー] Robust Training of Federated Models with Extremely Label Deficiency

Yonggang Zhang, Zhiqin Yang|arXiv (Cornell University)|Feb 22, 2024

Machine Learning and Data Classification被引用数 5

ひとこと要約

Twin-sightは、極端なラベル不足の下でフェデレーテッド半教師あり学習の勾配衝突を緩和するための近傍保存制約を備えた、監視付きと教師なしの二重モデルパラダイムを導入し、複数のデータセットで最先端の成果を達成します。

ABSTRACT

Federated semi-supervised learning (FSSL) has emerged as a powerful paradigm for collaboratively training machine learning models using distributed data with label deficiency. Advanced FSSL methods predominantly focus on training a single model on each client. However, this approach could lead to a discrepancy between the objective functions of labeled and unlabeled data, resulting in gradient conflicts. To alleviate gradient conflict, we propose a novel twin-model paradigm, called Twin-sight, designed to enhance mutual guidance by providing insights from different perspectives of labeled and unlabeled data. In particular, Twin-sight concurrently trains a supervised model with a supervised objective function while training an unsupervised model using an unsupervised objective function. To enhance the synergy between these two models, Twin-sight introduces a neighbourhood-preserving constraint, which encourages the preservation of the neighbourhood relationship among data features extracted by both models. Our comprehensive experiments on four benchmark datasets provide substantial evidence that Twin-sight can significantly outperform state-of-the-art methods across various experimental settings, demonstrating the efficacy of the proposed Twin-sight.

研究の動機と目的

ラベル付きクライアントとラベルなしクライアントという異種の目的に起因する勾配衝突に対処する。
勾配ドリフトを低減するために、監督学習と教師なし学習を分離するツインモデルフレームワークを提案する。
両モデルからの表現を整合させるために近傍保存の相互作用損失を導入する。
厳しい非IID設定下で標準ベンチマークに対して既存のFSSL手法より優れた性能を示す。

提案手法

連合データで訓練される監督モデル (w_s) と教師なしモデル (w_u) を用いたツインモデルパラダイムを定式化する。
クライアント間で共通の教師なしインスタンス識別目的関数 J^u を教師なしモデルに用いる。
ラベル付きデータを用いて交差エントロピーで教師ありモデルを訓練する（あるいはラベルなしクライアント上の高信頼疑似ラベル代替 J_t^s を用いる）。
Twin-sight損失 J_a を導入して、2つのモデルが生成する特徴間の近傍関係を保存し、表現を整合させる。
ラベル付きデータの結合目的 J^l = J_m(w_s) + λ_u J^u(w_u) + λ_d J_a(w_s,w_u) を定義し、ラベルなしデータには J^u = J_t^s(w_s) + λ_u J^u(w_u) + λ_d J_a(w_s,w_u) を定義する。
これらツインモデルの目的を用いたFedAvg風のフェデレーテッド最適化を採用し、標準データセットで実験を行う。

実験結果

リサーチクエスチョン

RQ1極端なラベル不足を伴うフェデレーテッド半教師あり学習において、ツインモデルアプローチは監督付きと教師なしの目的間の勾配衝突を緩和できるか？
RQ22つのモデル間の近傍保存による相互指導は、さまざまなデータセットと非 IID 設定において相互指導と全体的な性能を改善するか？
RQ3完全ラベルあり、完全ラベルなし、部分的にラベル付けされたフェデレーテッドシナリオにおいて、Twin-sightは既存のSOTA手法とどう比較されるか？
RQ4Twin-sightの相互作用重み λ_d と教師なし目的の強さ λ_u が性能と収束に与える影響は何か？

主な発見

方法	完全ラベル付きクライアント/完全ラベルなしクライアントの数	CIFAR-10 精度	ラウンド	CIFAR-100 精度	ラウンド
FedAvg-Upper Bound	10/0	82.78	-	64.45	-
FedAvg-Lower Bound	4/0	61.58	295	48.36	469
FedProx-Lower Bound	4/0	63.66	168	44.64	-
FedAvg+FixMatch	4/6	63.58	207	48.73	315
FedProx+FixMatch	4/6	62.44	269	43.61	-
FedAvg+Freematch	4/6	58.47	-	48.67	417
FedProx+Freematch	4/6	59.28	269	40.45	-
Fed-Consist	4/6	62.42	231	47.31	-
RSCFed	4/6	60.78	-	43.48	-
Twin-sight (私たちの)	4/6	70.06	115	49.98	400
表の注記	-	-	-	-	-

Twin-sight は深刻な非 IID 設定（γ=0.1、K=10）において CIFAR-10、CIFAR-100、SVHN、FMNIST の最先端ベースラインを上回る。
CIFAR-10 で、Twin-sight は 115 ラウンドで 70.06% の精度を達成し、競合手法を上回る。
CIFAR-100 で、Twin-sight は 400 ラウンドで 49.98% の精度を達成し、競合手法を上回る。
SVHN と FMNIST で、それぞれ 125 ラウンドと 140 ラウンドで 62.94% と 79.95% の精度を達成し、いくつかのベースラインを上回る。
部分的にラベル付きのシナリオでは、CIFAR-10、CIFAR-100、SVHN、FMNIST の各データセットで顕著な改善を示し、Ferrero（例）では特にラベル付きデータが乏しい場合に堅牢な利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。