[논문 리뷰] Pre-training Graph Neural Networks.
이 논문은 저데이터 및 분포외 설정에서 일반화 성능을 향상시키기 위해 레이블이 없는 보조 데이터와 레이블이 있는 보조 데이터를 모두 활용하여 노드 수준과 그래프 수준의 사전 학습을 결합하는 이중 수준 사전 학습 프레임워크를 제안한다. 이 방법은 분자의 성질 및 단백질 기능 예측 작업에서 성능을 크게 향상시키며, 여러 벤치마크에서 평균 ROC-AUC 개선률이 각각 7.2%와 11.7%에 이를 수 있다.
Many applications of machine learning in science and medicine, including molecular property and protein function prediction, can be cast as problems of predicting some properties of graphs, where having good graph representations is critical. However, two key challenges in these domains are (1) extreme scarcity of labeled data due to expensive lab experiments, and (2) needing to extrapolate to test graphs that are structurally different from those seen during training. In this paper, we explore pre-training to address both of these challenges. In particular, working with Graph Neural Networks (GNNs) for representation learning of graphs, we wish to obtain node representations that (1) capture similarity of nodes' network neighborhood structure, (2) can be composed to give accurate graph-level representations, and (3) capture domain-knowledge. To achieve these goals, we propose a series of methods to pre-train GNNs at both the node-level and the graph-level, using both unlabeled data and labeled data from related auxiliary supervised tasks. We perform extensive evaluation on two applications, molecular property and protein function prediction. We observe that performing only graph-level supervised pre-training often leads to marginal performance gain or even can worsen the performance compared to non-pre-trained models. On the other hand, effectively combining both node- and graph-level pre-training techniques significantly improves generalization to out-of-distribution graphs, consistently outperforming non-pre-trained GNNs across 8 datasets in molecular property prediction (resp. 40 tasks in protein function prediction), with the average ROC-AUC improvement of 7.2% (resp. 11.7%).
연구 동기 및 목표
- 과학적 및 의료 분야의 그래프 학습 응용에서 극도로 빈도가 낮은 레이블 문제를 해결한다.
- 학습 데이터와 구조적으로 다를 수 있는 분포외 그래프로의 일반화 성능을 향상시킨다.
- 구조적 유사성, 구성적 그래프 표현 및 도메인 지식을 포괄하는 사전 학습 전략을 개발한다.
- 단순히 그래프 수준의 사전 학습만으로는 성능 향상이 이루어지지 않거나 오히려 성능이 떨어지는 한계를 극복한다.
제안 방법
- 이웃 구조적 유사성을 포착하는 자기지도 학습 목표를 사용하여 노드 수준에서 GNN을 사전 학습한다.
- 관련 보조 작업의 레이블 데이터를 활용하여 그래프 수준에서 GNN을 사전 학습함으로써 그래프 수준 표현 학습을 향상시킨다.
- 레이블이 없는 데이터와 레이블이 있는 데이터에서 유래한 상호보완적 신호를 활용하기 위해 노드 수준과 그래프 수준의 사전 학습을 통합한다.
- 유사한 구조적 이웃을 가진 노드들이 유사한 표현을 가지도록 노드 수준에서 대비 학습 목표를 사용한다.
- 관련 작업의 그래프 수준 지도 신호를 활용하여 전반적인 그래프 표현 학습을 유도한다.
- 하류의 저자원 예측 작업에서 일반화 성능을 평가하기 위해 사전 학습된 GNN을 미세 조정한다.
실험 결과
연구 질문
- RQ1노드 수준의 사전 학습은 저데이터 그래프 학습 환경에서 GNN의 일반화 성능 향상에 기여하는가?
- RQ2단독으로 그래프 수준의 사전 학습을 수행할 경우 일관된 성능 향상이 이루어지는가, 아니면 성능 저하가 발생할 수 있는가?
- RQ3노드 수준과 그래프 수준의 사전 학습을 통합할 경우 분포외 그래프로의 일반화 성능에 어떤 영향을 미치는가?
- RQ4관련 작업에서 유래한 보조 레이블 데이터는 분자의 성질 및 단백질 기능 예측 작업에서 하류 성능 향상에 어느 정도 기여하는가?
- RQ5사전 학습이 과학적 그래프 응용에서 도메인 지식과 구조적 유사성을 효과적으로 포착할 수 있는가?
주요 결과
- 단순히 그래프 수준에서 지도 학습을 통한 사전 학습을 수행할 경우, 비사전 학습 모델 대비 성능 향상이 미미하거나 오히려 성능 저하가 발생하는 경우가 흔하다.
- 노드 수준과 그래프 수준의 사전 학습을 통합함으로써 8개의 분자의 성질 예측 데이터셋에서 일관된 일반화 성능 향상이 이루어진다.
- 분자의 성질 예측 작업에서 통합 사전 학습 방법은 평균 ROC-AUC 개선률이 7.2%에 이를 수 있다.
- 단백질 기능 예측 작업에서는 40개의 작업에서 평균 ROC-AUC 개선률이 11.7%에 이를 수 있다.
- 특히 자료가 부족한 조건에서 비사전 학습 GNN에 비해 제안된 방법이 분포외 일반화 성능에서 뚜렷한 우월성을 보인다.
- 노드 수준과 그래프 수준의 신호가 동시에 최적화될 때 사전 학습의 효과가 가장 두드러진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.