Skip to main content
QUICK REVIEW

[논문 리뷰] GROVER: Self-supervised Message Passing Transformer on Large-scale Molecular Data.

Yu Rong, Yatao Bian|arXiv (Cornell University)|2020. 06. 18.
Computational Drug Discovery Methods참고 문헌 25인용 수 12
한 줄 요약

GROVER는 1000만 개의 레이블이 없는 분자에서 노드, 엣지, 그래프 수준의 사전 훈련 작업을 활용하여 표현력 있는 구조적 및 의미적 특징을 학습하는 자기지도 학습 메시지 전파 트랜스포머이다. 미세조정 후 11개의 하류 분자 성질 예측 벤치마크에서 평균 6퍼센트 이상의 향상된 성능을 기록하여 최신 기술 수준을 확립한다.

ABSTRACT

How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for task-specific and data-driven molecular representation learning. Nevertheless, two dark clouds impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capabilities to new-synthesized molecules. To address them both, we propose a novel molecular representation framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node, edge and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks with the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules---the biggest GNN and the largest training dataset that we have ever met. We then leverage the pre-trained GROVER to downstream molecular property prediction tasks followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) over current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.

연구 동기 및 목표

  • 분자 성질 예측을 위한 지도 학습 GNN 훈련에서 레이블이 부족한 문제를 해결하기 위해.
  • 현재 GNN이 제한된 인덕티브 바이어스로 인해 새로 합성된 분자에 일반화하기 어려운 문제를 개선하기 위해.
  • 대규모 레이블이 없는 데이터에서 인간의 레이블 없이도 rich한 분자 표현을 학습하는 사전 훈련 프레임워크를 개발하기 위해.
  • 메시지 전파를 트랜스포머 아키텍처와 통합하여 더 표현력 있는 분자 인코더를 만들기 위해.
  • 잘 설계된 자기지도 학습과 표현력 있는 모델이 분자 표현 학습에서 성능을 크게 향상시킬 수 있음을 입증하기 위해.

제안 방법

  • GROVER는 메시지 전파 네트워크와 트랜스포머 스타일의 어텐션 메커니즘을 조합한 하이브리드 아키텍처를 사용하여 분자 그래프 내의 장거리 의존성과 복잡한 구조 패턴을 포착한다.
  • 세 가지 자기지도 사전 훈련 작업, 즉 마스킹된 노드 예측, 마스킹된 엣지 예측, 그래프 수준 재구성 작업을 도입하여 다수준 표현 학습을 가능하게 한다.
  • 인간이 애너테이션한 레이블 없이도 구조적 및 의미적 특징을 학습하기 위해 대규모 자기지도 목적함수를 사용하여 1000만 개의 레이블이 없는 분자에서 사전 훈련을 수행한다.
  • 하류 분자 성질 예측 작업에서 최소한의 레이블 데이터로도 전이 학습을 활용하여 사전 훈련된 GROVER 인코더를 미세조정한다.
  • 노드 및 엣지 특징을 모두 고려하는 어텐션 메커니즘을 지원하여 표준 GNN보다 더 높은 표현력을 확보한다.
  • 확장성과 효율성이 뛰어나 1000만 개의 분자 데이터셋에서 사전 훈련을 수행할 수 있으며, 현재까지 가장 큰 규모의 GNN 사전 훈련 설정 중 하나이다.

실험 결과

연구 질문

  • RQ1대규모 레이블이 없는 분자 데이터에서 자기지도 사전 훈련을 수행하면 새로운 분자에 대한 일반화 성능이 향상되는가?
  • RQ2메시지 전파와 트랜스포머 어텐션을 결합할 경우 표준 GNN에 비해 분자 표현 학습에서 어떤 성능 향상을 이끌어내는가?
  • RQ3노드, 엣지, 그래프 수준의 다수준 자기지도 학습이 하류 분자 성질 예측 성능에 어떤 영향을 미치는가?
  • RQ4대규모 사전 훈련된 GROVER 모델은 최소한의 미세조정으로 기존 최신 기술 수준의 방법을 얼마나 뛰어넘을 수 있는가?
  • RQ5표현력 있는 아키텍처와 잘 설계된 사전 훈련 목적함수는 다양한 분자 예측 벤치마크에서 일관된 성능 향상을 이끌어내는가?

주요 결과

  • GROVER는 최신 기술 수준의 방법에 비해 11개의 도전적인 분자 성질 예측 벤치마크에서 평균 6퍼센트 이상의 향상을 기록한다.
  • 거대한 레이블이 없는 데이터에서 자기지도 사전 훈련을 통해 새로 합성된 분자에 대한 강력한 일반화 성능을 보여준다.
  • 메시지 전파와 트랜스포머 어텐션의 통합은 표준 GNN보다 더 표현력 있는 분자 표현을 가능하게 한다.
  • 다수준 자기지도 학습(노드, 엣지, 그래프)은 풍부한 구조적 및 의미적 특징 학습에 기여한다.
  • 1000만 개의 레이블이 없는 분자에서의 사전 훈련은 최소한의 하류 미세조정으로도 효과적인 전이 학습을 가능하게 한다.
  • 결과는 표현력 있는 아키텍처와 잘 설계된 자기지도 손실 함수가 분자 표현 학습에서 성능 향상에 핵심적인 역할을 한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.