Skip to main content
QUICK REVIEW

[論文レビュー] Federated Learning on Non-IID Data Silos: An Experimental Study

Qinbin Li, Yiqun Diao|arXiv (Cornell University)|Feb 3, 2021
Privacy-Preserving Technologies in Data参考文献 81被引用数 82
ひとこと要約

この論文は NIID-Bench を提案し、多様な非IIDデータシロルにおけるフェデレーテッドラーニングを評価する包括的なベンチマークを提供し、9つのデータセットで4つのFLアルゴリズムを経験的に分析して、単一の手法が優勢ではなく、非IID分布が性能に大きく影響することを示している。

ABSTRACT

Due to the increasing privacy concerns and data regulations, training data have been increasingly fragmented, forming distributed databases of multiple "data silos" (e.g., within different organizations and countries). To develop effective machine learning services, there is a must to exploit data from such distributed databases without exchanging the raw data. Recently, federated learning (FL) has been a solution with growing interests, which enables multiple parties to collaboratively train a machine learning model without exchanging their local data. A key and common challenge on distributed databases is the heterogeneity of the data distribution among the parties. The data of different parties are usually non-independently and identically distributed (i.e., non-IID). There have been many FL algorithms to address the learning effectiveness under non-IID data settings. However, there lacks an experimental study on systematically understanding their advantages and disadvantages, as previous studies have very rigid data partitioning strategies among parties, which are hardly representative and thorough. In this paper, to help researchers better understand and study the non-IID data setting in federated learning, we propose comprehensive data partitioning strategies to cover the typical non-IID data cases. Moreover, we conduct extensive experiments to evaluate state-of-the-art FL algorithms. We find that non-IID does bring significant challenges in learning accuracy of FL algorithms, and none of the existing state-of-the-art FL algorithms outperforms others in all cases. Our experiments provide insights for future studies of addressing the challenges in "data silos".

研究の動機と目的

  • 分散データシロル間の水平フェデレーテッドラーニングにおける非IIDデータの主要な課題を特定する。
  • 六つのパーティショニング戦略を含む包括的な非IIDデータベンチマーク(NIID-Bench)を開発する。
  • varied non-IID settings under varied non-IID settings? Wait ensure accurate translation.

提案手法

  • ラベル歪み、特徴歪み、量の歪みをカバーする6つの非IIDパーティショニング戦略を導入する。
  • 実世界データセットを分割して分散型非IIDデータセットを統合し、制御された不均衡特性を可能にする。
  • NIID-Bench を公開コードとリーダーボード付きで実装する(論文にリンクを提供)。
  • 標準の CNN/MLP アーキテクチャと SGD 最適化を用いて9データセット(画像と表形式)で実験する。
  • 4つのFLアルゴリズム(FedAvg、FedProx、SCAFFOLD、FedNova)をラウンドごとに比較し、指標としてトップ-1 精度を用いる。
  • データ歪みの種類が収束、安定性、最終精度に与える影響を分析する。

実験結果

リサーチクエスチョン

  • RQ1分散データシロルにおける広範な非IIDデータ分布下で一般的なFLアルゴリズムはどのように性能を発揮するか?
  • RQ2どの非IIDパーティショニング戦略が各FLアルゴリズムの強みと弱みを明らかにするか?
  • RQ3多様な非IIDシナリオ全体で一つのアルゴリズムが一貫して他を上回るか?
  • RQ4データ歪み(ラベル、特徴、量)は学習の安定性と収束にどのように影響するか?
  • RQ5NIID-Benchは非IIDデータシロルに対する堅牢なフェデレーテッドラーニングの今後の方向性を示唆できるか?

主な発見

カテゴリデータセット分割FedAvgFedProxSCAFFOLDFedNova
ラベル分布の歪みMNISTp_k ~ Dir(0.5)98.9% ± 0.1%98.9% ± 0.1%99.0% ± 0.1%98.9% ± 0.1%
ラベル分布の歪みFMNISTp_k ~ Dir(0.5)88.1% ± 0.6%88.1% ± 0.9%88.4% ± 0.5%88.5% ± 0.5%
ラベル分布の歪みCIFAR-10p_k ~ Dir(0.5)68.2% ± 0.7%67.9% ± 0.7%69.8% ± 0.7%66.8% ± 1.5%
ラベル分布の歪みSVHNp_k ~ Dir(0.5)86.1% ± 0.7%86.6% ± 0.9%86.8% ± 0.3%86.4% ± 0.6%
量の歪みMNISTq ~ Dir(0.5)99.2% ± 0.1%99.2% ± 0.1%99.1% ± 0.1%99.1% ± 0.1%
量の歪みFMNISTq ~ Dir(0.5)89.4% ± 0.1%89.7% ± 0.3%88.8% ± 0.4%86.1% ± 2.9%
  • 非IIDデータはFLアルゴリズムの学習精度を著しく低下させる。
  • すべての非IID設定で単一の最先端FLアルゴリズムが優勢であるとは限らない。
  • ラベル分布の歪みは量の歪みよりも一般的に困難。
  • バッチ正規化と部分サンプリングに起因するトレーニングの不安定性は、非IIDのFLで広く見られる。
  • NIID-Bench は歪みタイプごとに異なるアルゴリズムの性能を明らかにし、包括的なベンチマークの必要性を強調する。
  • 今後の評価を促進する公開リーダーボードとコードベースが提供されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。