[논문 리뷰] Layer-Dependent Importance Sampling for Training Deep and Large Graph Convolutional Networks
LADIES는 층 의존적 중요도 샘플링을 도입하여 딥하고 큰 GCN을 더 낮은 메모리/시간 비용으로 학습하고, 이전 샘플링 방법에 비해 일반화 성능을 향상시킵니다.
Graph convolutional networks (GCNs) have recently received wide attentions, due to their successful applications in different graph tasks and different domains. Training GCNs for a large graph, however, is still a challenge. Original full-batch GCN training requires calculating the representation of all the nodes in the graph per GCN layer, which brings in high computation and memory costs. To alleviate this issue, several sampling-based methods have been proposed to train GCNs on a subset of nodes. Among them, the node-wise neighbor-sampling method recursively samples a fixed number of neighbor nodes, and thus its computation cost suffers from exponential growing neighbor size; while the layer-wise importance-sampling method discards the neighbor-dependent constraints, and thus the nodes sampled across layer suffer from sparse connection problem. To deal with the above two problems, we propose a new effective sampling algorithm called LAyer-Dependent ImportancE Sampling (LADIES). Based on the sampled nodes in the upper layer, LADIES selects their neighborhood nodes, constructs a bipartite subgraph and computes the importance probability accordingly. Then, it samples a fixed number of nodes by the calculated probability, and recursively conducts such procedure per layer to construct the whole computation graph. We prove theoretically and experimentally, that our proposed sampling algorithm outperforms the previous sampling methods in terms of both time and memory costs. Furthermore, LADIES is shown to have better generalization accuracy than original full-batch GCN, due to its stochastic nature.
연구 동기 및 목표
- 대상 그래프가 큰 경우 전체 배치 비용과 노드별 샘플링의 중복으로 인해 딥 GCN 학습의 필요성 동기를 제공합니다.
- 연결성을 유지하고 분산을 감소시키기 위해 층 의존적 샘플링 스킴을 개발합니다.
- 현존 방법 대비 이론적 효율성 및 분산 이점을 입증합니다.
- 벤치마크 데이터셋에서 실행 시간, 메모리, 정확도 측면의 경험적 이점을 보여줍니다.
제안 방법
- 각 층마다 상위 층에서 샘플링된 노드와 이웃으로부터 이분 그래프를 구성하는 LADIES를 제안합니다.
- 샘플링을 안내하기 위해 layer-wise 중요도 확률을 p_i^{(l-1)} = ||Q^{(l)} P_{*,i}||_2^2 / ||Q^{(l)} P||_F^2 로 계산합니다.
- 계산된 확률에 따라 각 층에서 고정된 수의 노드를 샘플링하고, 임베딩을 전파하기 위해 밀집하고 정규화된 샘플링 인접 행렬 tilde{P}^{(l-1)}을 구성합니다.
- 연결성을 보장하고 지수적으로 커지는 수용 필드의 성장을 피하기 위해 상향-하향의 층 의존 샘플링을 사용합니다.
- 훈련의 안정화를 위해 tilde{P}^{(l)}를 행 합으로 정규화합니다.
- 여러 데이터셋에서의 메모리/시간 복잡도 및 분산에 대한 이론적 분석과 실험적 검증을 제공합니다.
실험 결과
연구 질문
- RQ1층 의존 샘플링이 심층 GCN에서 계산 그래프의 연결성 및 효율성을 어떻게 개선할 수 있는가?
- RQ2LADIES가 노드별 및 층별 선행 방법에 비해 더 낮은 메모리/시간 복잡도와 감소된 분산을 제공하는가?
- RQ3LADIES가 표준 그래프 벤치마크에서 예측 정확도와 일반화를 개선하거나 유지하는가?
- RQ4매우 큰 그래프에서 강한 성능을 달성하기 위해 충분한 샘플 크기는 무엇인가?
주요 결과
| 데이터세트 | 샘플링 방법 | F1-점수(%) | 총 시간(s) | 메모리(MB) | 배치 시간(ms) | 배치 수 |
|---|---|---|---|---|---|---|
| Cora (2708) | Full-Batch | 76.5±1.4 | 1.19±0.82 | 30.72 | 15.75±0.52 | 80.8±51.7 |
| Cora (2708) | GraphSage (5) | 75.2±1.5 | 6.77±4.94 | 471.39 | 78.42±0.87 | 65.2±52.1 |
| Cora (2708) | FastGCN (64) | 25.1±8.4 | 0.55±0.65 | 3.13 | 9.22±0.20 | 63.2±71.2 |
| Cora (2708) | FastGCN (512) | 78.0±2.1 | 4.70±1.35 | 7.33 | 10.08±0.29 | 487±147 |
| Cora (2708) | LADIES (64) | 77.6±1.4 | 4.19±1.16 | 3.13 | 9.68±0.48 | 436±118.4 |
| Cora (2708) | LADIES (512) | 78.3±1.6 | 0.72±0.39 | 7.35 | 9.77±0.28 | 75.6±37.0 |
| Citeseer (3327) | Full-Batch | 62.3±3.1 | 0.61±0.70 | 68.13 | 15.77±0.58 | 40.6±22.8 |
| Citeseer (3327) | GraphSage (5) | 59.4±0.9 | 4.51±3.68 | 595.71 | 53.14±1.90 | 57.2±42.1 |
| Citeseer (3327) | FastGCN (64) | 19.2±2.7 | 0.53±0.48 | 5.89 | 8.88±0.40 | 64.0±57.0 |
| Citeseer (3327) | FastGCN (512) | 44.6±10.8 | 4.34±1.73 | 13.97 | 10.41±0.51 | 386±167 |
| Citeseer (3327) | FastGCN (1024) | 63.5±1.8 | 2.24±1.01 | 23.24 | 10.54±0.27 | 223±98.6 |
| Citeseer (3327) | LADIES (64) | 65.0±1.4 | 2.17±0.65 | 5.89 | 9.60±0.39 | 232±66.8 |
| Citeseer (3327) | LADIES (512) | 64.3±2.4 | 0.41±0.22 | 13.92 | 10.32±0.23 | 37.6±11.9 |
| Pubmed (19717) | Full-Batch | 71.9±1.9 | 4.80±1.53 | 137.93 | 44.69±0.57 | 102±33.4 |
| Pubmed (19717) | GraphSage (5) | 70.1±1.4 | 5.53±2.57 | 453.58 | 44.73±0.30 | 74.8±31.7 |
| Pubmed (19717) | FastGCN (64) | 38.5±6.9 | 0.40±0.69 | 1.92 | 7.42±0.16 | 58.8±94.8 |
| Pubmed (19717) | FastGCN (512) | 39.3±9.2 | 0.44±0.61 | 4.53 | 10.06±0.41 | 44.8±55.0 |
| Pubmed (19717) | FastGCN (8192) | 74.4±0.8 | 3.47±1.16 | 49.41 | 17.84±0.33 | 195±56.9 |
| Pubmed (19717) | LADIES (64) | 76.8±0.8 | 2.57±0.72 | 1.92 | 9.43±0.47 | 277±82.2 |
| Pubmed (19717) | LADIES (512) | 75.9±1.1 | 2.27±1.17 | 4.39 | 10.43±0.36 | 245±84.5 |
| Reddit (232965) | Full-Batch | 91.6±1.6 | 474.3±84.4 | 2370.48 | 1564±3.41 | 179±75.5 |
| Reddit (232965) | GraphSage (5) | 92.1±1.1 | 13.12±2.84 | 1234.63 | 121.47±0.72 | 81.5±42.3 |
| Reddit (232965) | FastGCN (64) | 27.8±12.6 | 2.06±1.29 | 3.75 | 7.85±0.72 | 57.4±43.7 |
| Reddit (232965) | FastGCN (512) | 17.5±16.7 | 0.31±0.41 | 6.91 | 10.01±0.31 | 32.1±72.3 |
| Reddit (232965) | FastGCN (8192) | 89.5±1.2 | 5.63±2.12 | 74.28 | 16.57±0.58 | 278±51.2 |
| Reddit (232965) | LADIES (64) | 83.5±0.9 | 5.62±1.58 | 3.75 | 9.42±0.48 | 453±88.2 |
| Reddit (232965) | LADIES (512) | 92.8±1.6 | 6.87±1.17 | 7.26 | 10.87±0.63 | 393±74.4 |
- LADIES는 노드별 샘플링 방법보다 낮은 메모리 및 시간 비용을 달성하고 유사하거나 더 높은 정확도를 유지합니다.
- FastGCN과 비교해 더 작은 유효 연결 노드 집합으로 인해 분산이 strictly 더 나아지며 대형 그래프에서 작은 샘플 크기의 이점을 얻습니다.
- 벤치마크(Cora, Citeseer, Pubmed, Reddit)에서 작은 샘플(예: 64)과 깊은 아키텍처로 최상의 테스트 정확도를 달성합니다.
- LADIES는 강력한 일반화를 보이며, 확률적 샘플링을 사용하더라도 검증/테스트에서 종종 전체 배치 GCN을 능가합니다.
- LADIES는 계산의 기하급수적 증가 없이 매우 큰 그래프와 깊은 GCN으로 확장 가능합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.