QUICK REVIEW

[논문 리뷰] Attention-based Graph Neural Network for Semi-supervised Learning

Kiran Koshy Thekumparampil, Chong Wang|arXiv (Cornell University)|2018. 03. 10.

Advanced Graph Neural Networks참고 문헌 42인용 수 250

한 줄 요약

이 논문은 전통적 전파를 적응형 이웃 주의로 대체하는 주의(attention) 기반 그래프 신경망 AGNN을 소개하며, 인용 네트워크에서 최첨단 성능을 달성하면서 모델 복잡성을 줄입니다.

ABSTRACT

Recently popularized graph neural networks achieve the state-of-the-art accuracy on a number of standard benchmark datasets for graph-based semi-supervised learning, improving significantly over existing approaches. These architectures alternate between a propagation layer that aggregates the hidden states of the local neighborhood and a fully-connected layer. Perhaps surprisingly, we show that a linear model, that removes all the intermediate fully-connected layers, is still able to achieve a performance comparable to the state-of-the-art models. This significantly reduces the number of parameters, which is critical for semi-supervised learning where number of labeled examples are small. This in turn allows a room for designing more innovative propagation layers. Based on this insight, we propose a novel graph neural network that removes all the intermediate fully-connected layers, and replaces the propagation layers with attention mechanisms that respect the structure of the graph. The attention mechanism allows us to learn a dynamic and adaptive local summary of the neighborhood to achieve more accurate predictions. In a number of experiments on benchmark citation networks datasets, we demonstrate that our approach outperforms competing methods. By examining the attention weights among neighbors, we show that our model provides some interesting insights on how neighbors influence each other.

연구 동기 및 목표

라벨이 제한된 그래프에서 그래프 구조와 특징을 활용한 반지도 학습의 동기를 제시한다.
선형 전파 기저(GLN)가 GCN의 성능과 대등하다는 점을 보이며 전파 계층의 중요성을 강조한다.
적응형 주의(attention)를 이웃에 적용하는 AGNN을 제안하여 정확도와 해석 가능성을 높인다.
AGNN이 표준 인용 네트워크 데이터셋에서 최첨단 방법 대비 우수한 정확도를 달성함을 입증한다.
학습된 주의 가중치가 이웃의 영향력을 어떻게 반영하는지에 대한 통찰력을 제공한다.]
method:["그래프 신경망을 분석하고 전파 계층이 성능의 주된 원동력이고 중간 비선형 계층은 상대적으로 기여가 작음을 확인한다.","전파를 비선형성으로부터 분리하기 위해 Graph Linear Network (GLN)를 정의하고 그것이 GCN의 성능과 일치하거나 근접함을 보인다.","레이어당 단일 스칼라 매개변수로 AGNN을 도입하고 주의 가중치를 이용한 전파를 사용한다: H^{(t+1)} = P^{(t)} H^{(t)}, 여기서 P^{(t)}_{ij} ∝ exp(β^{(t)} cos(H_i^{(t)}, H_j^{(t)})), 행은 합이 1(이웃에 대한 소프트맥스)이다.","초기 임베딩 XW^{(0)}에 ReLU를 적용한 노드 표현을 계산하고, 그 후 엘리프 propagation 계층을 거쳐 softmax 분류기 Z = softmax(H^{(ℓ+1)} W^{(1)})를 얻는다.","레이블이 있는 노드에 대해 교차 엔트로피 손실로 모든 가중치(W^{(0)}, W^{(1)}, β^{(t)})를 학습한다.","복잡도: O(ℓ d_h |E| + d_x d_h n)"],
research_questions: [

제안 방법

실험 결과

연구 질문

RQ1그래프 기반의 반지도 학습에서 현재 GNN과 비교해도 경쟁력 있는 성능을 단순 선형 전파 모델이 달성할 수 있는가?
RQ2주의 기반 전파 계층이 그래프 구조 데이터에서 더 관련성 높은 이웃을 식별하고 가중치를 부여함으로써 정확도를 높이는가?
RQ3제안된 AGNN가 학습된 주의 가중치를 통해 이웃의 영향 패턴을 해석 가능하게 제공하는가?
RQ4AGNN가 표준 인용 네트워크 벤치마크(CiteSeer, Cora, PubMed)에서 GCN 및 다른 베이스라인과 비교하여 어떤 성능을 보이는가?

주요 결과

입력	방법	CiteSeer	Cora	PubMed
Y_L, X_L	단일 계층 퍼셉트론	57.2	—	—
Y_L, X_L	다층 퍼셉트론	64.0	—	—
Y_L, X	T-SVM [26]	64.0	57.5	62.2
Y_L, G	DeepWalk [35]	—	—	—
Y_L, G	node2vec [22]	—	74.9	75.3
Y_L, X, G	LP[50]	45.3	68.0	63.0
Y_L, X, G	ICA [30]	69.1	75.1	73.9
Y_L, X, G	ManiReg [5]	60.1	59.5	70.7
Y_L, X, G	SemiEmb [42]	59.6	59.0	71.1
Y_L, X, G	DCNN [3]	—	—	76.8
Y_L, X, G	Planetoid [46]	64.7	75.7	77.2
Y_L, X, G	MoNet [31]	—	78.8	—
Y_L, X, G	Graph-CNN [38]	—	—	—
Y_L, X, G	DynamicFilter [41]	—	79.0	—
Y_L, X, G	Bootstrap [11]	53.6	78.4	78.8
Y_L, X,G	GCN [27]	70.3	81.5	79.0
Y_L, X,G	GLN	70.9 ±0.05	81.2 ±0.05	78.9 ±0.05
Y_L, X,G	AGNN (this paper)	71.7 ±0.08	83.1 ±0.08	79.9 ±0.07

GLN(선형 전파)가 벤치마크 인용 네트워크에서 최상의 GCN과 비교하여 동등하거나 더 나은 정확도를 달성한다.
AGNN은 CiteSeer, Cora, PubMed에서 고정 분할 실험에서 최상의 정확도를 달성하며 표준 오차를 능가하는 개선을 보인다.
무작위 분할과 더 큰 라벨 데이터 구간에서도 AGNN은 최첨단 베이스라인을 지속적으로 능가한다.
주의 가중치는 같은 클래스의 이웃이 더 높은 주의도를 받는 경향이 있음을 드러내 해석 가능성을 제공한다.
더 깊은 전파(ℓ 최대 4)가 AGNN에 대해 가능하고 유익하며, 모델 복잡도가 감소하고 깊은 비선형 계층이 없는 덕분이다.
주의 메커니즘은 타깃 노드와 가장 관련이 높은 이웃 노드에 집중해 분류 성능을 향상시키며, GCN으로 잘못 분류된 노드들에서도 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.