Skip to main content
QUICK REVIEW

[논문 리뷰] FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks

Chaoyang He, Keshav Balasubramanian|arXiv (Cornell University)|2021. 04. 14.
Advanced Graph Neural Networks참고 문헌 102인용 수 103
한 줄 요약

FedGraphNN은 다양한 데이터셋, GNN 모델, FL 알고리즘에 걸친 그래프 신경망용 오픈 페더레이티드 러닝 벤치마크 시스템을 도입하고, 은밀하고 모듈화된 크로스-실로 페더레이티드 그래프 학습을 위한 효율적이고 안전한 시스템을 제공합니다.

ABSTRACT

Graph Neural Network (GNN) research is rapidly growing thanks to the capacity of GNNs in learning distributed representations from graph-structured data. However, centralizing a massive amount of real-world graph data for GNN training is prohibitive due to privacy concerns, regulation restrictions, and commercial competitions. Federated learning (FL), a trending distributed learning paradigm, provides possibilities to solve this challenge while preserving data privacy. Despite recent advances in vision and language domains, there is no suitable platform for the FL of GNNs. To this end, we introduce FedGraphNN, an open FL benchmark system that can facilitate research on federated GNNs. FedGraphNN is built on a unified formulation of graph FL and contains a wide range of datasets from different domains, popular GNN models, and FL algorithms, with secure and efficient system support. Particularly for the datasets, we collect, preprocess, and partition 36 datasets from 7 domains, including both publicly available ones and specifically obtained ones such as hERG and Tencent. Our empirical analysis showcases the utility of our benchmark system, while exposing significant challenges in graph FL: federated GNNs perform worse in most datasets with a non-IID split than centralized GNNs; the GNN model that attains the best result in the centralized setting may not maintain its advantage in the FL setting. These results imply that more research efforts are needed to unravel the mystery behind federated GNNs. Moreover, our system performance analysis demonstrates that the FedGraphNN system is computationally efficient and secure to large-scale graphs datasets. We maintain the source code at https://github.com/FedML-AI/FedGraphNN.

연구 동기 및 목표

  • 통합 페더레이티드 그래프 학습 프레임워크(graph FL)와 다양한 task 설정(graph-level, subgraph-level, node-level)을 제공한다.
  • 7개 도메인에서 36개 그래프 데이터셋을 수집하고 전처리하여 현실적인 비IID 페더레이티드 상황을 시뮬레이션한다.
  • 실행 가능한 재현 가능한 실험을 가능하게 하는 효율적이고 안전하며 모듈화된 FedGraphNN 벤치마크 시스템을 제공한다.
  • 연합 GNN이 중앙집중식 baselines와 비교했을 때의 성능을 평가하고 그래프 FL의 주요 도전과제를 발견한다.]
  • method:[
  • FedGraphNN을 각 데이터 비율(N^(k)/N)로 가중된 로컬 목표를 가지는 K개 클라이언트의 분산 최적화 문제로 형식화한다(F(W)=sum_k (N^(k)/N) f^(k)(W)).
  • 두 단계의 메시지 전달과 읽기(readout)를 갖는 인덕티브 GNN 프레임워크(MPNN)를 채택하여 다양한 GNN(GCN, GAT, GraphSAGE, SGC, GIN)을 가능하게 한다.
  • 프레딕트 FL 알고리즘(FedAvg, FedOPT 등)과 프라이버시 보호를 위한 보안 집계(LightSecAgg)를 지원한다.
  • 그래프 FL을 그래프 수준, 서브그래프 수준, 노드 수준의 설정으로 분류하고 각 수준에 해당하는 일반적인 작업(graph 분류, 링크 예측, 노드 분류)을 제시한다.
  • 실험 벤치마킹 및 크로스-실로 환경 배포를 용이하게 하는 모듈형 API와 데이터 로더를 제공한다.]
  • research_questions:[
  • 연합 학습이 그래프 수준, 서브그래프 수준, 노드 수준의 FL 설정에서 GNN 성능에 어떤 영향을 미치는가?
  • 비 IID 데이터 파티션이 중앙 집중식 학습과 비교하여 연합 GNN 정확도에 미치는 영향은 무엇인가?
  • 어떤 GNN 아키텍처와 FL 알고리즘이 그래프 FL에서 가장 견고하거나 정확도 저하가 가장 적은가?
  • 대규모 그래프 데이터셋에서 FedGraphNN의 시스템 효율성과 보안 특성은 어떠한가?
  • 그래프 FL에서 남아 있는 도전과제로 추가적 방법론 및 벤치마크 개선이 필요한 부분은 무엇인가?]
  • key_findings:[
  • 연합 GNN은 비 IID 그래프 데이터셋이 커지면 중앙 집중식 GNN보다 성능이 뒤처지는 경우가 많고, 작은 데이터셋에서는 성능이 비슷할 수 있다.
  • 가장 좋은 중앙집중식 모델이 반드시 최적의 FL 모델로 이어지지는 않으며 그래프의 고유한 FL 다이내믹을 나타낸다.
  • GAT는 그래프 수준 FL에서 더 큰 정확도 차이를 자주 보이는 반면, 특정 데이터셋(CIAO, CORA, PubMed)에서는 서브그래프 또는 노드 수준 FL에서 중앙집중식 학습보다 우수한 경우도 있다.
  • FedGraphNN은 LightSecAgg를 통한 계산 효율성과 보안을 입증하여 일부 벤치마크 대비 더 빠른 집계를 통해 프라이버시를 달성한다.
  • 학습 시간은 그래프 크기에 따라 분 단위에서 약 한 시간까지이며, 보안 집계는 SecAgg 변형과 유사한 프라이버시 보장을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.