QUICK REVIEW

[논문 리뷰] GaAN: Gated Attention Networks for Learning on Large and Spatiotemporal Graphs

Jiani Zhang, Xingjian Shi|arXiv (Cornell University)|2018. 03. 20.

Advanced Graph Neural Networks참고 문헌 19인용 수 314

한 줄 요약

GaAN은 각 어텐션 헤드를 게이팅하는 작은 컨볼루셔널 서브네트워크를 가진 게이트 처리 멀티-헤드 어텐션 그래프 애그리게이터를 도입하여 유도된 노드 분류를 개선하고 시공간 예측을 위한 Graph Gated Recurrent Unit (GGRU)을 가능하게 한다.

ABSTRACT

We propose a new network architecture, Gated Attention Networks (GaAN), for learning on graphs. Unlike the traditional multi-head attention mechanism, which equally consumes all attention heads, GaAN uses a convolutional sub-network to control each attention head's importance. We demonstrate the effectiveness of GaAN on the inductive node classification problem. Moreover, with GaAN as a building block, we construct the Graph Gated Recurrent Unit (GGRU) to address the traffic speed forecasting problem. Extensive experiments on three real-world datasets show that our GaAN framework achieves state-of-the-art results on both tasks.

연구 동기 및 목표

중심 노드의 이웃에서 어떤 어텐션 헤드가 가장 정보가 많은지 학습하는 그래프 애그리게이터를 설계하고 동기를 부여한다.
대규모 그래프에서 노드 표현 학습을 개선하기 위해 GaAN, 게이트 처리 멀티-헤드 어텐션 애그리게이터를 개발한다.
그래프에서 시공간 예측을 위한 순환 구조(GGRU)로 GaAN을 확장한다.
대규모 그래프의 학습 중 샘플링 및 이웃 머지 전략 개선을 통해 학습 효율성을 향상시킨다.
노드 분류 및 트래픽 속도 예측 데이터셋에서 최첨단 성능을 입증한다.

제안 방법

gate 서브-네트워크가 중심 노드별 각 헤드에 게이트 스칼라를 할당하는 멀티-헤드 어텐션 애그리게이터 GaAN을 제안한다.
가벼운 합성곱 네트워크를 사용하여 중심 노드와 이웃 특성을 집계하여 게이트 g_i^(k)를 계산한다(Eq. 3).
헤드의 기여를 조절하기 위해 표준 멀티-헤드 어텐션 애그리게이션(Eq. 2)에 게이트를 통합한다.
그래프 애그리레이터를 순환 유닛으로 변환하는统一 프레임워크를 제공하여 시공간 예측(GGRU)을 가능하게 한다(섹션 6.1의 Graph GRU 방정식).
교육 시 대형 그래프를 다루기 위한 메모리 효율적인 이웃 샘플링 및 머지 전략을 제안한다(GraphSAGE 유사).
GaAN과 다수의 베이스라인(어텐션 기반, 풀링 기반, 페어와이즈 합 애그리게이터)을 PPI와 Reddit의 노드 분류 및 METR-LA의 트래픽 예측에서 비교한다.

실험 결과

연구 질문

RQ1다중 헤드 어텐션에 게이트를 추가하는 것이 표준 멀티 헤드 어텐션 대비 귀납적 노드 분류 작업에서 성능을 향상시키는가?
RQ2GaAN이 실세계 대규모 그래프에서 풀링 및 페어와이즈 합 그래프 애그리게이터를 능가할 수 있는가?
RQ3GaAN이 시공간 예측을 위한 Graph GRU 프레임워크로 일반화되는가?
RQ4게이트 설계, 어텐션 헤드 수, 샘플링 전략이 성능과 효율성에 미치는 영향은 무엇인가?

주요 결과

모델	PPI (micro F1)	Reddit (micro F1)
GraphSAGE (baseline)	-	-
GAT (Veličković et al., 2018)	97.3 ± 0.2	-
Fast GCN (Chen et al., 2018)	-	93.7
2-Layer FNN	54.07 ± 0.06	73.58 ± 0.09
Avg pooling	96.85 ± 0.19	95.78 ± 0.07
Max pooling	98.39 ± 0.05	95.62 ± 0.03
Pairwise + sigmoid	98.39 ± 0.05	95.86 ± 0.08
Pairwise + tanh	98.32 ± 0.18	95.80 ± 0.03
Attention-only	98.46 ± 0.09	96.19 ± 0.07
GaAN-K1	96.95 ± 0.09	96.50 ± 0.08
GaAN-K2	97.92 ± 0.05	96.59 ± 0.02
GaAN-K4	98.42 ± 0.02	96.60 ± 0.03
GaAN-K8	98.71 ± 0.02	96.60 ± 0.02

GaAN은 벤치마크에서 표준 베이스라인 애그리게이터 및 어텐션 기반 모델과 비교하여 PPI 및 Reddit 귀납적 노드 분류에서 최첨단 Micro F1를 달성한다.
게이트 강화 어텐션(GaAN)은 동일한 헤드 수를 가진 표준 멀티-헤드 어텐션보다 일관되게 성능이 우수하며, 헤드별 게이팅의 이점을 보여준다.
더 큰 출력 차원과 더 많은 어텐션 헤드가 성능을 향상시킬 수 있으며, 데이터셋에 따라 PPI와 Reddit에서 경향이 다르게 나타난다.
작은 차원의 게이팅 네트워크(d_m = 64)로도 의미 있는 헤드별 게이트를 제공하는 저오버헤드가 충분하다.
GaAN 기반의 GGRU는 시공간 예측 능력을 향상시키며 그래프 기반 시퀀스 예측에 대한 통합된 접근을 가능하게 한다.
실험 결과는 다양한 데이터셋과 작업에서 베이스라인 대비 강한 성능 향상을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.