[논문 리뷰] DeeperGCN: All You Need to Train Deeper GCNs
이 논문은 DeeperGCN을 도입합니다. 일반화된 집계, 사전 활성화 잔차, MsgNorm 계층을 통해 매우 깊은 GCN을 안정적으로 학습하고 대규모 OGB 벤치마크에서 최첨단 결과를 달성합니다.
Graph Convolutional Networks (GCNs) have been drawing significant attention with the power of representation learning on graphs. Unlike Convolutional Neural Networks (CNNs), which are able to take advantage of stacking very deep layers, GCNs suffer from vanishing gradient, over-smoothing and over-fitting issues when going deeper. These challenges limit the representation power of GCNs on large-scale graphs. This paper proposes DeeperGCN that is capable of successfully and reliably training very deep GCNs. We define differentiable generalized aggregation functions to unify different message aggregation operations (e.g. mean, max). We also propose a novel normalization layer namely MsgNorm and a pre-activation version of residual connections for GCNs. Extensive experiments on Open Graph Benchmark (OGB) show DeeperGCN significantly boosts performance over the state-of-the-art on the large scale graph learning tasks of node property prediction and graph property prediction. Please visit https://www.deepgcns.org for more information.
연구 동기 및 목표
- 대규모 그래프에서 매우 깊은 GCN을 학습하는 데 따른 문제점(소실되는 그래디언트, 과도한 평활화, 과적합)을 동기 부여하고 해결합니다.
- GCN의 집계 함수를 통합하고 학습할 수 있는 differentiable generalized aggregation 프레임워크를 도입합니다.
- 깊은 GCN 학습을 안정시키기 위한 아키텍처 및 정규화 혁신(사전 활성화 잔차, MsgNorm)을 개발합니다.
- OGB 데이터셋에서 평가하여 이전 SOTA 방법에 비해 경험적 이점을 입증합니다.
제안 방법
- 의 일반화 가능하고 미분 가능한 집계 함수를 정의하여 평균, 최댓값 및 학습 가능한 보간(SoftMax_Agg 및 PowerMean_Agg)을 포괄합니다.
- 일반화 집계기로 양의 메시지 특징을 사용하는 GCN 변형인 GENet를 제안하여 일반화된 평균-최댓값 패밀리를 가능하게 합니다.
- GCN에 대한 사전 활성화 잔차 연결을 도입합니다(정규화 -> ReLU -> GraphConv -> 덧셈) 학습 안정성을 향상시킵니다.
- 메시지 정규화 계층인 MsgNorm를 개발하여 정점 업데이트 전에 집계된 메시지를 스케일링하고 정규화합니다.
- 레이어별 및 학습 단계별로 학습 매개변수(beta, p)를 동적으로 학습하는 DyResGEN 변형을 제공합니다.
- OGB 노드 및 그래프 예측 작업에서 일반 GCN, ResGCN 및 SOTA 베이스라인과 비교하여 광범위하게 평가합니다.
실험 결과
연구 질문
- RQ1일반화 가능하고 미분 가능한 집계 함수가 대규모 그래프에서 깊은 GCN의 학습 가능성 및 성능을 향상시킬 수 있는가?
- RQ2업데이트된 스킵 연결과 새로운 정규화(MsgNorm)가 깊은 GCN 학습 안정성 및 정확도에 어떤 영향을 미치는가?
- RQ3동적으로 학습된 집계 매개변수(beta, p)가 노드 및 그래프 예측 작업에서 성능을 더 향상시키는가?
- RQ4DeeperGCN이 다양한 작업에서 Open Graph Benchmark 데이터셋의 SOTA에 얼마나 근접하거나 이를 능가할 수 있는가?
주요 결과
- 일반화된 평균-최댓값 집계(SoftMax_Agg 및 PowerMean_Agg)는 일반적인 집계기를 통합하고 확장하며 엔드-투-엔드로 학습될 수 있습니다.
- 사전 활성화 잔차는 성능을 향상시키고(집계기 전반에 걸쳐 최대 112층까지) 더 깊은 모델을 가능하게 합니다.
- MsgNorm은 특히 약한 집계기와 함께 깊은 GCN 성능을 크게 향상시킵니다.
- 집계 매개변수를 동적으로 학습하는 DyResGEN은 고정된 집계기 대비 추가 이점을 제공하여 여러 작업에서 새로운 SOTA를 달성합니다.
- OGBN-proteins, OGBN-arxiv, OGBG-ppa, OGBG-molhiv에서 DeeperGCN 변형은 이전 SOTA를 현저한 차이로 능가합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.