QUICK REVIEW

[논문 리뷰] AdaGCN: Adaboosting Graph Convolutional Networks into Deep Models

Ke Sun, Zhanxing Zhu|arXiv (Cornell University)|2019. 08. 14.

Advanced Graph Neural Networks참고 문헌 40인용 수 32

한 줄 요약

AdaGCN은 AdaBoost 기반의 재귀 유사(deep) 그래프 신경망으로, 계층별 적응 가중치를 사용하여 다중 홉 이웃 정보를 집계하고, 희소 텐서 계산을 줄이면서 최첨단 성능을 달성합니다.

ABSTRACT

The design of deep graph models still remains to be investigated and the crucial part is how to explore and exploit the knowledge from different hops of neighbors in an efficient way. In this paper, we propose a novel RNN-like deep graph neural network architecture by incorporating AdaBoost into the computation of network; and the proposed graph convolutional network called AdaGCN~(Adaboosting Graph Convolutional Network) has the ability to efficiently extract knowledge from high-order neighbors of current nodes and then integrates knowledge from different hops of neighbors into the network in an Adaboost way. Different from other graph neural networks that directly stack many graph convolution layers, AdaGCN shares the same base neural network architecture among all ``layers'' and is recursively optimized, which is similar to an RNN. Besides, We also theoretically established the connection between AdaGCN and existing graph convolutional methods, presenting the benefits of our proposal. Finally, extensive experiments demonstrate the consistent state-of-the-art prediction performance on graphs across different label rates and the computational advantage of our approach AdaGCN~\footnote{Code is available at \url{https://github.com/datake/AdaGCN}.}

연구 동기 및 목표

깊은 그래프 모델이 얕은 GCN을 넘어 높은 차수 이웃 정보를 효과적으로 활용하도록 동기를 부여합니다.
AdaGCN을 제안하여 다층Across를 통해 multi-hop 지식을 통합하는 재귀 유사 아키텍처를 제공합니다.
AdaGCN과 기존 전파 방법(PPNP/APPNP) 사이의 이론적 관계를 보여주고 적응형 레이어링을 정당화합니다.
다양한 데이터셋과 레이블 규칙에서 계산적 이점을 갖는 최첨단 예측 성능을 시연합니다.

제안 방법

스택형 비선형 계층을 A^l X에서 l-홉 정보를 포착하는 기저 분류기 f_theta^(l)의 시퀀스로 교체합니다.
AdaBoost(SAMME.R) 프레임워크를 사용하여 기저 분류기를 적응적으로 가중 합산하고, 잘못 분류된 샘플을 기반으로 노드 가중치를 업데이트합니다.
각 기저 분류기는 미리 계산된 A^l X에 대해 비선형 f_theta(예: 2층 MLP)를 사용하여 희소 전파를 밀집 디코딩과 분리하여 효율적 계산을 가능하게 합니다.
AdaGCN은 A^l X를 점진적으로 계산합니다: A^l X = A · (A^{l-1} X)이고 예측을 C(A,X) = argmax_k sum_l alpha^(l) f_theta^(l)(A^l X)로 집계합니다.
APPNP/PPNP와의 연결: AdaGCN은 EMA 스타일의 전파를 고정된 지수 가중치와 공유 매개변수 대신 적응적이고 계층별 매개변수로 일반화합니다.
MixHop과의 비교에서 AdaGCN은 boosting 기반 조합과 각 계층의 비선형 변환으로 적응적이고 계층별 혼합을 제공하며 이론적 보장을 제시합니다.

실험 결과

연구 질문

RQ1AdaBoost 스타일의 그래프 홉 반복이 다중 차수 이웃으로부터의 정보 융합을 기존의 깊은 GCN을 넘어 개선할 수 있을까?
RQ2AdaGCN, APPNP/PPNP, MixHop 사이의 전파 및 표현력 차원에서의 이론적 관계는 무엇인가?
RQ3AdaGCN이 밀집-희소 텐서 곱셈을 피하면서 레이블 비율에 따라 우수한 정확도를 달성할 때 계산 효율성을 유지하는가?
RQ4SAMME.R를 통한 계층별 가중치 적응이 데이터 세트 간 일반화와 강건성에 어떤 영향을 미치는가?

주요 결과

모델	Citeseer	Cora-ML	PubMed	MS Academic	P 값
V.GCN	73.51 ± 0.48	82.30 ± 0.34	77.65 ± 0.40	91.65 ± 0.09	1.8 × 10^{-15}
GCN	75.40 ± 0.30	83.41 ± 0.39	78.68 ± 0.38	92.10 ± 0.08	2.2 × 10^{-16}
N-GCN	74.25 ± 0.40	82.25 ± 0.30	77.43 ± 0.42	92.86 ± 0.11
GAT	75.39 ± 0.27	84.37 ± 0.24	77.76 ± 0.44	91.22 ± 0.07
JK	73.03 ± 0.47	82.69 ± 0.35	77.88 ± 0.38	91.71 ± 0.10
BT.FP	73.55 ± 0.57	80.84 ± 0.97	72.94 ± 1.00	91.61 ± 0.24
PPNP	75.83 ± 0.27	85.29 ± 0.25	OOM	OOM
APPNP	75.73 ± 0.30	85.09 ± 0.25	79.73 ± 0.31	93.27 ± 0.08
PPNP (ours)	75.53 ± 0.32	84.39 ± 0.28	OOM	OOM
APPNP (ours)	75.41 ± 0.35	84.28 ± 0.28	79.41 ± 0.34	92.98 ± 0.07
AdaGCN	76.68 ± 0.20	85.97 ± 0.20	79.95 ± 0.21	93.17 ± 0.07
P value	1.8 × 10^{-15}	2.2 × 10^{-16}	1.1 × 10^{-5}	2.1 × 10^{-9}

AdaGCN은 여러 데이터셋(CiteSeer, Cora, PubMed, MS Academic)에서 강력한 베이스라인 대비 최첨단 정확도를 달성합니다.
저표본 레지임에서도 AdaGCN은 APPNP보다 레이블 비율이 감소할 때 더 큰 개선을 보이며 장점을 유지합니다.
AdaGCN은 희소 텐서 계산을 크게 줄이면서도 경쟁력 있는 성능을 보여 더 큰 데이터셋(예: Reddit)에서 에포크당 학습 속도가 빨라집니다.
이 방법은 AdaBoost로 가중된 서로 다른 매개변수를 가진 계층별 분류기로 구성된 적응형 APPNP의 형태로 해석될 수 있으며, 고정 EMA 스킴이 아닙니다.
AdaGCN은 일반적인 계층별 이웃 혼합을 표현할 수 있으며 MixHop의 정서를 Boosting 기반 결합과 각 계층 변환의 비선형성으로 맞춥니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.