QUICK REVIEW

[논문 리뷰] FastGCN: Fast Learning with Graph Convolutional Networks via Importance Sampling

Jie Chen, Tengfei Ma|arXiv (Cornell University)|2018. 01. 30.

Advanced Graph Neural Networks참고 문헌 19인용 수 457

한 줄 요약

FastGCN은 그래프 합성을 적분 변환으로 재구성하고 중요 샘플링이 포함된 몬테카를로 샘플링을 사용하여 GCN의 귀납적이고 확장 가능한 학습을 가능하게 한다. 배치당 학습 시간은 GCN/GraphSAGE에 비해 수 차례 빠르면서도 정확도는 유사하다.

ABSTRACT

The graph convolutional networks (GCN) recently proposed by Kipf and Welling are an effective graph model for semi-supervised learning. This model, however, was originally designed to be learned with the presence of both training and test data. Moreover, the recursive neighborhood expansion across layers poses time and memory challenges for training with large, dense graphs. To relax the requirement of simultaneous availability of test data, we interpret graph convolutions as integral transforms of embedding functions under probability measures. Such an interpretation allows for the use of Monte Carlo approaches to consistently estimate the integrals, which in turn leads to a batched training scheme as we propose in this work---FastGCN. Enhanced with importance sampling, FastGCN not only is efficient for training but also generalizes well for inference. We show a comprehensive set of experiments to demonstrate its effectiveness compared with GCN and related models. In particular, training is orders of magnitude more efficient while predictions remain comparably accurate.

연구 동기 및 목표

검정 데이터(test data)를 필요로 하지 않는 그래프 합성 네트워크의 확장 가능하고 귀납적 학습을 동기화한다.
조밀한 그래프에서 이웃 확장으로 인한 메모리 및 시간 병목을 해결한다.
그래프 합성을 확률 분포 아래의 적분으로 취급하는 몬테카를로 프레임워크를 도입한다.
추정기 분산을 줄이고 효율성을 높이기 위한 중요 샘플링 전략을 개발한다.
실험을 통해 FastGCN이 기준선과 비교해 현저하게 더 빠르면서도 유사한 정확도를 달성함을 보인다.

제안 방법

그래프 합성을 확률 분포 아래 정점 임베딩의 적분 변환으로 재해석한다.
레이어별 적분을 각 레이어당 t_l iid 샘플을 사용한 몬테카를로 샘플링으로 근사한다.
샘플링을 통해 전체 목표를 추정하는 배치 손실을 정의하여 배치 학습을 가능하게 한다.
학습/테스트 데이터를 분리하는 귀납 학습 설정을 도입하여 전이학습과 달리 GCN과 구분된다.
분산을 줄이기 위해 ||Â(:,u)||^2에 비례하는 고정된 샘플링 분포 q(u)와 함께 중요 샘플링 체계를 제안한다.
두 가지 알고리즘을 제공한다: (i) 표준 FastGCN 배치 학습, (ii) 분산을 개선한 버전으로 샘플링 분포 q를 사용하는 알고리즘.
새로운 정점에 대해 전체 아키텍처로의 추론 또는 샘플링된 근사를 논의한다.

실험 결과

연구 질문

RQ1검정 데이터(test data)를 요구하지 않는 그래프 합성 신경망의 확장 가능하고 귀납적 학습을 가능하게 하는가?
RQ2몬테카를로 적분 및 샘플링이 대규모/조밀한 그래프에서 GCN의 계산 부담을 어떻게 감소시키는가?
RQ3중요 샘플링이 균일 샘플링에 비해 학습 효율성 및 예측 정확도를 향상시키는가?
RQ4샘플링 전략이 학습 목표의 분산 및 수렴에 미치는 영향은 무엇인가?
RQ5FastGCN이 per-batch 시간 및 정확도 측면에서 GraphSAGE 및 표준 GCN과 어떻게 비교되는가?

주요 결과

FastGCN은 벤치마크 데이터셋에서 GCN 및 GraphSAGE에 비해 배치당 속도에서 상당한 증가(배치당 시간의 차이가 큰 수준)를 보인다.
실험에서 중요 샘플링이 균일 샘플링보다 정확도를 높인다.
ÂH(0)와 같은 변환을 미리 계산하면 학습 시간이 더 줄어들면서도 정확도는 유사하게 유지될 수 있다.
FastGCN은 Cora, PubMed, Reddit 데이터셋에서 미세 F1 점수 측면에서 경쟁력을 나타낸다.
훈련 데이터와 테스트 데이터를 분리하여 귀납 학습을 지원하므로 스트리밍 또는 확장 그래프에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.