[논문 리뷰] Subgraph Federated Learning with Missing Neighbor Generation
이 논문은 분산된 서브그래프 간 글로벌 그래프 지식 전달을 가능하게 하는 FedSage 및 FedSage+를 서브그래프 연합 학습에 도입하고, 생성된 누락 이웃 모듈로 cross-subgraph 누락 이웃 문제를 해결합니다.
Graphs have been widely used in data mining and machine learning due to their unique representation of real-world objects and their interactions. As graphs are getting bigger and bigger nowadays, it is common to see their subgraphs separately collected and stored in multiple local systems. Therefore, it is natural to consider the subgraph federated learning setting, where each local system holds a small subgraph that may be biased from the distribution of the whole graph. Hence, the subgraph federated learning aims to collaboratively train a powerful and generalizable graph mining model without directly sharing their graph data. In this work, towards the novel yet realistic setting of subgraph federated learning, we propose two major techniques: (1) FedSage, which trains a GraphSage model based on FedAvg to integrate node features, link structures, and task labels on multiple local subgraphs; (2) FedSage+, which trains a missing neighbor generator along FedSage to deal with missing links across local subgraphs. Empirical results on four real-world graph datasets with synthesized subgraph federated learning settings demonstrate the effectiveness and efficiency of our proposed techniques. At the same time, consistent theoretical implications are made towards their generalization ability on the global graphs.
연구 동기 및 목표
- 원시 데이터를 공유하지 않고 다수의 편향된 서브그래프에서 전 세계적으로 적용 가능한 그래프 분류기를 학습하도록 동기를 부여한다.
- 로컬 서브그래프 간 FedAvg를 통해 GraphSage 모델을 집계하는 FedSage를 제안한다.
- 누락 이웃을 생성하여 FedSage+로 교차 서브그래프 누락 연결을 해결한다.
- 다양한 데이터 소유자 설정에서 실제 데이터셋에 대한 효과성과 효율성을 입증한다.
- 연합 서브그래프 학습을 위한 GNTK 프레임워크에서 일반화에 대한 이론적 통찰을 제공한다.
제안 방법
- M개의 로컬 서브그래프에 걸쳐 공유 GraphSage 분류기를 학습하기 위해 FedAvg를 채택한다 (FedSage).
- 노드 분류를 위한 에고-그래프 기반 손실을 정의하고 표현을 K개의 GraphSage 계층을 통해 전파한다.
- 교차 서브그래프 누락 이웃을 생성하기 위한 두 모듈 제너레이터(H^e 인코더와 H^g 제너레이터)인 NeighGen을 도입한다.
- 손상된 로컬 서브그래프에서 그래프 수선(graph-mending)을 통해 NeighGen을 학습하고 GraphSage(LocSage+)와 함께 공동 최적화한다.
- 원시 데이터를 공유하지 않고 교차 서브그래프 이웃 재구성 관련 기울기를 교환하여 NeighGen을 연합화하고 생성 이웃의 다양성을 높인다.
- LocSage+에 대한 공동 손실 L = L^n + λ^c L^c 및 다른 소유자로부터의 기울기 신호로 NeighGen을 로컬에서 업데이트하는 교차 서브그래프 제한 FL 스킴을 제공한다.
실험 결과
연구 질문
- RQ1데이터를 공유하지 않고 분산된 편향된 서브그래프들로부터 어떻게 전 세계적으로 적용 가능한 그래프 분류기를 학습할 수 있는가?
- RQ2교차 서브그래프 누락 링크 하에서 GraphSage와 FedAvg로 강건한 글로벌 모델을 얻을 수 있는가?
- RQ3누락 이웃(NeighGen)을 생성하는 것이 서브그래프 연합 학습의 성능을 향상시키는가?
- RQ4프라이빗 데이터를 노출하지 않으면서 연합 설정에서 NeighGen을 어떻게 학습시켜 교차 서브그래프 정보를 포착할 수 있는가?
- RQ5GNTK 프레임워크에서 서브그래프 FL의 일반화에 대한 함의는 무엇인가?
주요 결과
- FedSage와 FedSage+는 네 가지 실제 데이터셋에서 지역적으로 학습된 분류기보다 일관되게 성능이 우수합니다.
- FedSage+는 교차 서브그래프 누락 이웃 문제를 완화하여 FedSage보다 성능을 더욱 향상시킨다.
- FedSage+는 교차 서브그래프 정보 손실에 대한 강건성을 보이며, Citeseer와 같이 희박한 그래프에서 특히 그렇다.
- 협업이 없는 로컬 학습(LocSage/LocSage+)은 연합 학습 방법에 비해 성능이 저조하며, 이 설정에서 FL의 가치를 보여준다.
- NeighGen과 GraphSage의 공동 학습은 더 빠른 수렴과 관리 가능한 훈련 시간 추가 오버헤드와 함께 경쟁력 있는 정확도를 제공합니다.
- 하이퍼파라미터 연구에 따르면 α가 약 1에 가까울 때와 보통의 누락 이웃 비율 h가 성능을 향상시키고, 극단적인 값은 학습을 악화시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.