Skip to main content
QUICK REVIEW

[論文レビュー] Group Knowledge Transfer: Federated Learning of Large CNNs at the Edge

Chaoyang He, Murali Annavaram|arXiv (Cornell University)|Jul 28, 2020
Privacy-Preserving Technologies in Data参考文献 77被引用数 190
ひとこと要約

本論文は、エッジデバイス向けのフェデレーテッドラーニングをFedGKTとして再定式化し、小さなエッジ CNNs を訓練し、知識蒸留を介して大規模サーバ CNN と同期するグループ知識移転フレームワークを提案する。エッジの計算と通信を削減しつつ、FedAvgと同等の精度を達成する。

ABSTRACT

Scaling up the convolutional neural network (CNN) size (e.g., width, depth, etc.) is known to effectively improve model accuracy. However, the large model size impedes training on resource-constrained edge devices. For instance, federated learning (FL) may place undue burden on the compute capability of edge nodes, even though there is a strong practical need for FL due to its privacy and confidentiality properties. To address the resource-constrained reality of edge devices, we reformulate FL as a group knowledge transfer training algorithm, called FedGKT. FedGKT designs a variant of the alternating minimization approach to train small CNNs on edge nodes and periodically transfer their knowledge by knowledge distillation to a large server-side CNN. FedGKT consolidates several advantages into a single framework: reduced demand for edge computation, lower communication bandwidth for large CNNs, and asynchronous training, all while maintaining model accuracy comparable to FedAvg. We train CNNs designed based on ResNet-56 and ResNet-110 using three distinct datasets (CIFAR-10, CIFAR-100, and CINIC-10) and their non-I.I.D. variants. Our results show that FedGKT can obtain comparable or even slightly higher accuracy than FedAvg. More importantly, FedGKT makes edge training affordable. Compared to the edge training using FedAvg, FedGKT demands 9 to 17 times less computational power (FLOPs) on edge devices and requires 54 to 105 times fewer parameters in the edge CNN. Our source code is released at FedML (https://fedml.ai).

研究の動機と目的

  • 資源制約下のエッジデバイスでデータを中央集約せずに大規模CNNを訓練する動機付け。
  • 計算をサーバへシフトしつつ、エッジのワークロードを軽く保つ FedGKT の提案。
  • エッジ FLOPs およびパラメータを大幅に削減しつつ、FedAvg と同等の精度を達成する。
  • 多くのエッジクライアント間で asynchronous な訓練と知識蒸留を探索する。

提案手法

  • FL をエッジモデルとサーバモデル間の交互最小化問題として再定式化する。
  • 各クライアントには小さなエッジ特徴抽出器と局所分類器を、クラウドには大きなサーバ CNN を用いる。
  • エッジとサーバモデル間の双方向の知識蒸留損失(KL/発散項)を導入して訓練を安定化させる。
  • 隠れ特徴とサーバのロジットを交換しつつ、交互にサーバとエッジの構成を訓練する。
  • サーバが任意のクライアントから入力を受け取った時点で訓練を開始する非同期訓練の variante を採用する。

実験結果

リサーチクエスチョン

  • RQ1FedGKT は edge における計算量とパラメータ数を劇的に削減しつつ、FedAvg の精度と同等を達成できるか?
  • RQ2双方向の知識移転は、非 IID のエッジデータに対する収束と性能を改善するか?
  • RQ3非同期FedGKT 訓練は、同期的アプローチと比較してロバストで時間効率的か?
  • RQ4実践的な通信、プライバシー、スケーラビリティのトレードオフは FedGKT でどうなるか?

主な発見

  • FedGKT は IID および non-IID データに対して CIFAR-10、CIFAR-100、CINIC-10 のいずれでも FedAvg と同等またはそれを上回る精度を達成。
  • FedGKT によるエッジ計算は 9 to 17 倍低く、エッジ CNN のパラメータは FedAvg ベースラインより 54 to 105 倍少ない。
  • 非同期 FedGKT 訓練は同期訓練と比較して精度を劣化させない。
  • 双方向知識移転(サーバーからエッジへの知識移転およびエッジからサーバーへの知識移転)は、特により難易度の高い非 IID データセットで性能を改善する。
  • FedGKT は隠れ特徴を交換することで、全モデルを交換するよりもエッジのメモリと通信帯域を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。