Skip to main content
QUICK REVIEW

[논문 리뷰] Self-supervised Graph-level Representation Learning with Local and Global Structure

Minghao Xu, Hang Wang|arXiv (Cornell University)|2021. 06. 08.
Computational Drug Discovery Methods참고 문헌 59인용 수 44
한 줄 요약

GraphLoG는 온라인 EM 알고리즘과 계층형 프로토타입을 사용하여 전체 그래프 표현에 대해 지역 인스턴스 유사성과 글로벌 계층적 의미 구조를 모두 학습하는 자기‑지도 프레임워크를 제시하며, 화학 및 생물학 작업에서 강력한 다운스트림 성능을 제공합니다.

ABSTRACT

This paper studies unsupervised/self-supervised whole-graph representation learning, which is critical in many tasks such as molecule properties prediction in drug and material discovery. Existing methods mainly focus on preserving the local similarity structure between different graph instances but fail to discover the global semantic structure of the entire data set. In this paper, we propose a unified framework called Local-instance and Global-semantic Learning (GraphLoG) for self-supervised whole-graph representation learning. Specifically, besides preserving the local similarities, GraphLoG introduces the hierarchical prototypes to capture the global semantic clusters. An efficient online expectation-maximization (EM) algorithm is further developed for learning the model. We evaluate GraphLoG by pre-training it on massive unlabeled graphs followed by fine-tuning on downstream tasks. Extensive experiments on both chemical and biological benchmark data sets demonstrate the effectiveness of the proposed approach.

연구 동기 및 목표

  • 비지도 설정에서 화학 및 생물학과 같은 도메인에서 정보가 풍부한 전체 그래프 표현 학습을 동기화한다.
  • 이전 방법이 포착하는 로컬 구조의 한계를 글로벌 의미 클러스터링을 계층형 프로토타입으로 도입해 극복한다.
  • GraphLoG를 제안하여 로컬 목표와 글로벌 목표를 함께 최적화해 강인한 그래프 임베딩을 학습한다.
  • 크게 라벨이 없는 대규모 그래프에서 사전 학습하고 라벨이 부족한 하위 다운스트림 작업에 미세조정한다.

제안 방법

  • 원래 그래프와 상관 관계가 있는(마스킹된) 그래프에서 그래프 및 서브그래프 임베딩을 얻기 위해 GNN을 사용한다.
  • 상관 관계 쌍의 유사성을 최대화하고 비상관 관계 쌍 간 음성성을 최소화하기 위한 로컬 인스턴스 학습 목적을 정의한다(그래프 및 서브그래프 단위 수준).
  • 잠재 공간의 글로벌 의미 구조를 포착하기 위해 트리로 구성된 계층형 프로토타입을 도입한다.
  • GNN 매개변수와 프로토타입을 순차적으로 학습하기 위해 E-step(잠재 변수 추론)과 M-step(완전 데이터 우도 기대값 극대화)을 교대로 수행하는 온라인 EM 알고리즘을 적용한다.
  • 글로벌 목표를 (그래프, 프로토타입) 쌍과 잡음 분포에서 샘플링된 음성 샘플에 대한 비정규화 가능도 형태의 Noise-Contrastive Estimation 스타일로 모델링한다.

실험 결과

연구 질문

  • RQ1GraphLoG가 라벨이 없는 그래프 수집에서 로컬 인스턴스 구조와 글로벌 의미 클러스터를 효과적으로 모두 포착할 수 있는가?
  • RQ2계층형 프로토타입이 글로벌 구조 표현의 질과 기존 자기지도 방법의 하위 다운스트림 작업 성능을 개선하는가?
  • RQ3온라인 EM이 대규모 그래프 데이터셋에서 GNN 매개변수와 계층형 프로토타입을 함께 학습하는 실용적이고 효과적인 최적화 전략인가?

주요 결과

  • GraphLoG는 강력한 다운스트림 성능을 달성하며, Graph LoG로 사전 학습된 Graph Isomorphism Network(GIN)가 여덟 가지 화학 작업 중 여섯 가지에서 기존 자체 지도 방법을 능가하고 평균 ROC-AUC를 2.1% 포인트 상승시킨다.
  • 화학 벤치마크에서 GraphLoG는 평균 ROC-AUC 73.4%를 달성하고 여러 작업(HIV, BACE 등)에서 여러 베이스라인을 능가한다(표 1에 표시).
  • 생물학 벤치마크에서 GraphLoG는 72.9% ROC-AUC를 달성하며 표 2에 기재된 여러 베이스라인을 능가한다.
  • 종단 간 연구 및 임베딩 시각화는 로컬 유사성 보존 외에 글로벌 계층적 구조를 도입하는 이점을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.