QUICK REVIEW

[論文レビュー] Federated Graph Classification over Non-IID Graphs

Han Xie, Jing Ma|arXiv (Cornell University)|Jun 25, 2021

Privacy-Preserving Technologies in Data参考文献 48被引用数 63

ひとこと要約

本論文は、非IIDグラフデータにおけるグラフ分類のための勾配ベースのクラスタリング型連合学習フレームワークGCFLを提案する。GCFL+は勾配シーケンスDTWクラスタリングを用いて異質性をより適切に扱い、実験は複数データセット・ドメインでベースラインより一貫した改善を示す。

ABSTRACT

Federated learning has emerged as an important paradigm for training machine learning models in different domains. For graph-level tasks such as graph classification, graphs can also be regarded as a special type of data samples, which can be collected and stored in separate local systems. Similar to other domains, multiple local systems, each holding a small set of graphs, may benefit from collaboratively training a powerful graph mining model, such as the popular graph neural networks (GNNs). To provide more motivation towards such endeavors, we analyze real-world graphs from different domains to confirm that they indeed share certain graph properties that are statistically significant compared with random graphs. However, we also find that different sets of graphs, even from the same domain or same dataset, are non-IID regarding both graph structures and node features. To handle this, we propose a graph clustered federated learning (GCFL) framework that dynamically finds clusters of local systems based on the gradients of GNNs, and theoretically justify that such clusters can reduce the structure and feature heterogeneity among graphs owned by the local systems. Moreover, we observe the gradients of GNNs to be rather fluctuating in GCFL which impedes high-quality clustering, and design a gradient sequence-based clustering mechanism based on dynamic time warping (GCFL+). Extensive experimental results and in-depth analysis demonstrate the effectiveness of our proposed frameworks.

研究の動機と目的

実世界のグラフは、グラフ分類のためのデータセット間連合学習を可能にする性質を共有していることを示す。
グラフデータセットとドメイン全体での構造および特徴の不均質性を定量化する。
勾配類似度に基づいてクライアントを動的にクラスタリングし、クラスタ固有のGNNを訓練するGCFLを開発する。
動的時間歪みを用いたGCFL+で勾配シーケンスを活用し、クラスタリングを改善する。
単一データセットおよび複数データセット設定において、FedAvgおよびFedProxより実証的な利得を示す。

提案手法

コアモデルとしてGraph Isomorphism Network (GIN)ベースのグラフ分類を用いる。
送信された勾配を分析してホモゲネous groupsを形成するように、クライアントを動的にクラスタリングする。
各クラスタ内でFedAvgを用いてクラスタ固有のGNNモデルを訓練する。
GCFLは勾配ノルムに基づく2つの停止/分割基準を導入し、クラスタリングを促す。
GCFL+は勾配ノルムの時系列マトリクスを維持し、動的時間歪みを用いて回を重ねるごとにクラスタリングを洗練させる。
GNNの勾配がグラフ構造および特徴の差異を反映することの理論的正当性を提供する。

実験結果

リサーチクエスチョン

RQ1勾配ベースのクラスタリングは、非IIDグラフ連合学習における構造および特徴の不均質性を低減できるか？
RQ2GCFL内で訓練されるクラスタ固有のGNNは、標準のFedAvgおよびFedProxよりグラフ分類タスクで優れているか？
RQ3DTWを介して勾配シーケンス情報を取り入れる（GCFL+）ことは、最後の勾配のみを使用する場合より安定で優れたクラスタを生み出すか？
RQ4異種ソース間でのグラフ分類に対して、データセット間/ドメイン間のグラフ連合学習は有益か？

主な発見

Dataset (# clients)	Accuracy average	Min gain	Ratio
NCI1 (30)	0.6468 self-train; 0.6474 FedAvg; 0.6437 FedProx; 0.7326 GCFL; 0.7422 GCFL+	-	—
PROTEINS (10)	0.7213 self-train; 0.7490 FedAvg; 0.7556 FedProx; 0.7739 GCFL; 0.7776 GCFL+	-	—
IMDB-BINARY (10)	0.7654 self-train; 0.7596 FedAvg; 0.7746 FedProx; 0.8256 GCFL; 0.8299 GCFL+	-	—
Molecules (1)	0.7543 self-train; 0.7524 FedAvg; 0.7668 FedProx; 0.7661 GCFL; 0.7745 GCFL+	-	—
Biochem (2)	0.7129 self-train; 0.6944 FedAvg; 0.7053 FedProx; 0.7172 GCFL; 0.7312 GCFL+	-	—
Mix (3)	0.7001 self-train; 0.6886 FedAvg; 0.6897 FedProx; 0.7056 GCFL; 0.7121 GCFL+	-	—

GCFLおよびGCFL+は、自己訓練および標準FLベースライン（FedAvg、FedProx）を上回り、複数のデータセットでグラフ分類の精度を向上させる。
単一データセット設定では、GCFL/GCFL+は一部データセットで自己訓練に対して最大約14.75ポイントの平均 gains を達成した。
複数のデータセットとドメインに渡り、GCFL/GCFL+はクライアントの大多数を一貫して改善し、GCFL+はしばしばGCFLを上回る。
GCFL+は勾配シーケンスDTWクラスタリングを用いて長距離の学習ダイナミクスをよりよく捉え、クラスタリング品質と性能を向上させる。
理論的結果は、GNNの勾配が構造/特徴の差異に対して重みの変化を制約することを示し、勾配ベースのクラスタリングの妥当性を支持する。
GCFL+は、シーケンスベースのクラスタリングを通じて、十分に利益を得られないクライアントがクラスタを引きずり下げるのを防ぐことで頑健性を維持する。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。