QUICK REVIEW

[논문 리뷰] Revisiting Over-smoothing in Deep GCNs

Chaoqi Yang, Ruijie Wang|arXiv (Cornell University)|2020. 03. 30.

Advanced Graph Neural Networks참고 문헌 41인용 수 56

한 줄 요약

이 논문은 딥 GCN을 그래프 정규화된 MLP 전파와 지도 학습 간의 교대 과정으로 재해석하고, 딥 GCN이 학습 중에 oversmoothing을 방지하는 효과를 보이며 학습 속도를 높이는 저렴한 mean-subtraction 기법을 도입한다.

ABSTRACT

Oversmoothing has been assumed to be the major cause of performance drop in deep graph convolutional networks (GCNs). In this paper, we propose a new view that deep GCNs can actually learn to anti-oversmooth during training. This work interprets a standard GCN architecture as layerwise integration of a Multi-layer Perceptron (MLP) and graph regularization. We analyze and conclude that before training, the final representation of a deep GCN does over-smooth, however, it learns anti-oversmoothing during training. Based on the conclusion, the paper further designs a cheap but effective trick to improve GCN training. We verify our conclusions and evaluate the trick on three citation networks and further provide insights on neighborhood aggregation in GCNs.

연구 동기 및 목표

딥 GCN에서의 oversmoothing 역할을 명확히 하고 학습 전후의 학습 동역학을 구별한다.
그래프 정규화와 지도 학습을 결합한 두 단계 최적화로서 GCN에 대한 이론적 관점을 제시한다.
딥 GCN의 학습을 가속화하고 안정화하는 실용적 기법을 확인한다.
이웃 집합화와 초기화가 딥 GCN에 미치는 영향을 실증적으로 통찰한다.

제안 방법

GCN을 두 단계 프로세스로 재정의한다: STEP1은 층별 전파를 통해 그래프 규제항을 최소화하고 forward 경로에 Lreg를 내재화한다; STEP2는 L0를 경험적 손실로 최소화하여 네트워크를 학습한다.
학습 전에 forward propagation이 Lreg를 최소화하기 때문에 딥 GCN이 oversmooth를 일으킴을 보이고; 학습 중에는 Wl의 최적화가 oversmoothing을 완화하여 L0에 맞춘 anti-oversmoothing를 달성한다.
레이어당 mean-subtraction이 Fiedler 벡터를 근사해 대략적인 그래프 분할을 제공하고 학습 속도를 높인다를 도출한다.
η-GCN 실험에서 집계 가중치 η의 역할과 이웃 정보 가중화와의 관계를 분석한다.
mean-subtraction을 PairNorm과 BatchNorm과 비교하고 추가 매개변수 없이 속도 및 안정성 이점을 강조한다.

실험 결과

연구 질문

RQ1Oversmoothing이 딥 GCN의 성능 저하를 근본적으로 야기하는가, 아니면 학습 역학이 oversmoothing을 상쇄할 수 있는가?
RQ2간단한 트릭(mean-subtraction)이 모델 복잡성을 증가시키지 않으면서 딥 GCN의 학습을 가속화하고 안정화시킬 수 있는가?
RQ3이웃 집합화의 가중치가 얕은(GCN)과 깊은(GCN)에서 성능에 어떻게 영향을 미치는가?
RQ4두 단계 최적화 관점(그래프 정규화 + 지도 학습)과 관찰된 학습 역학 간의 관계는 무엇인가?

주요 결과

모델 깊이	w(η) = 0	w(η) = 0.1	w(η) = 0.2	w(η) = 0.5	w(η) = 1.0	w(η) = 2	w(η) = 5	w(η) = 10	w(η) = 20	w(η) = 50	w(η) = 100
2-layer	92.66	95.67	96.32	96.05	95.33	94.54	93.44	93.30	92.82	92.86	92.98
2-layer	50.75	74.99	78.11	80.38	81.23	80.90	79.82	80.01	80.50	79.77	79.10
32-layer	95.02	99.49	99.58	99.35	98.69	98.10	98.84	98.83	98.81	98.76	98.83
32-layer	39.93	72.53	73.59	73.65	74.03	75.11	74.96	75.08	75.49	74.64	74.74

딥 GCN은 학습 전 초기 oversmoothing을 보이지만 학습 중에 anti-oversmoothing을 학습하며, 과적합이 매우 깊은 모델의 성능 저하의 주요 요인으로 제시된다.
레이어당 mean-subtraction은 학습 속도를 크게 높이고 견고한 개선을 낳으며 더 빠른 수렴과 경쟁력 있는 테스트 정확도와 일치한다.
mean-subtraction 트릭은 Fiedler 벡터를 근사하고 대략적인 그래프 분할을 제공하여 데이터셋 전반에 걸친 학습 효율을 돕는다.
2-layer GCN에서 이웃 집합화 가중치를 높이면 어느 정도까지는 테스트 정확도가 개선되다가 포화되고; 32-layer GCN에서는 더 큰 가중치가 높은 학습 정확도를 유지할 수 있지만 테스트 정확도는 더 변동한다, 깊이에 따른 역학을 강조한다.
SGC(선형 GCN)는 깊이에 따라 oversmoothing을 보이지만, 학습된 GCN은 가중치와 비선형성의 최적화를 통해 이를 피할 수 있어 anti-oversmoothing 관점을 뒷받침한다.
Mean-subtraction은 PairNorm보다 테스트 정확도에서 우수하고 학습 시간이 빠르며 분산이 적다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.