QUICK REVIEW

[논문 리뷰] GROVER: Self-supervised Message Passing Transformer on Large-scale Molecular Data.

Yu Rong, Yatao Bian|arXiv (Cornell University)|2020. 06. 18.

Computational Drug Discovery Methods참고 문헌 25인용 수 12

한 줄 요약

GROVER는 1000만 개의 레이블이 없는 분자에서 노드, 엣지, 그래프 수준의 사전 훈련 작업을 활용하여 표현력 있는 구조적 및 의미적 특징을 학습하는 자기지도 학습 메시지 전파 트랜스포머이다. 미세조정 후 11개의 하류 분자 성질 예측 벤치마크에서 평균 6퍼센트 이상의 향상된 성능을 기록하여 최신 기술 수준을 확립한다.

ABSTRACT

How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for task-specific and data-driven molecular representation learning. Nevertheless, two dark clouds impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capabilities to new-synthesized molecules. To address them both, we propose a novel molecular representation framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node, edge and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks with the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules---the biggest GNN and the largest training dataset that we have ever met. We then leverage the pre-trained GROVER to downstream molecular property prediction tasks followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) over current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.

연구 동기 및 목표

분자 성질 예측을 위한 지도 학습 GNN 훈련에서 레이블이 부족한 문제를 해결하기 위해.
현재 GNN이 제한된 인덕티브 바이어스로 인해 새로 합성된 분자에 일반화하기 어려운 문제를 개선하기 위해.
대규모 레이블이 없는 데이터에서 인간의 레이블 없이도 rich한 분자 표현을 학습하는 사전 훈련 프레임워크를 개발하기 위해.
메시지 전파를 트랜스포머 아키텍처와 통합하여 더 표현력 있는 분자 인코더를 만들기 위해.
잘 설계된 자기지도 학습과 표현력 있는 모델이 분자 표현 학습에서 성능을 크게 향상시킬 수 있음을 입증하기 위해.

제안 방법

GROVER는 메시지 전파 네트워크와 트랜스포머 스타일의 어텐션 메커니즘을 조합한 하이브리드 아키텍처를 사용하여 분자 그래프 내의 장거리 의존성과 복잡한 구조 패턴을 포착한다.
세 가지 자기지도 사전 훈련 작업, 즉 마스킹된 노드 예측, 마스킹된 엣지 예측, 그래프 수준 재구성 작업을 도입하여 다수준 표현 학습을 가능하게 한다.
인간이 애너테이션한 레이블 없이도 구조적 및 의미적 특징을 학습하기 위해 대규모 자기지도 목적함수를 사용하여 1000만 개의 레이블이 없는 분자에서 사전 훈련을 수행한다.
하류 분자 성질 예측 작업에서 최소한의 레이블 데이터로도 전이 학습을 활용하여 사전 훈련된 GROVER 인코더를 미세조정한다.
노드 및 엣지 특징을 모두 고려하는 어텐션 메커니즘을 지원하여 표준 GNN보다 더 높은 표현력을 확보한다.
확장성과 효율성이 뛰어나 1000만 개의 분자 데이터셋에서 사전 훈련을 수행할 수 있으며, 현재까지 가장 큰 규모의 GNN 사전 훈련 설정 중 하나이다.

실험 결과

연구 질문

RQ1대규모 레이블이 없는 분자 데이터에서 자기지도 사전 훈련을 수행하면 새로운 분자에 대한 일반화 성능이 향상되는가?
RQ2메시지 전파와 트랜스포머 어텐션을 결합할 경우 표준 GNN에 비해 분자 표현 학습에서 어떤 성능 향상을 이끌어내는가?
RQ3노드, 엣지, 그래프 수준의 다수준 자기지도 학습이 하류 분자 성질 예측 성능에 어떤 영향을 미치는가?
RQ4대규모 사전 훈련된 GROVER 모델은 최소한의 미세조정으로 기존 최신 기술 수준의 방법을 얼마나 뛰어넘을 수 있는가?
RQ5표현력 있는 아키텍처와 잘 설계된 사전 훈련 목적함수는 다양한 분자 예측 벤치마크에서 일관된 성능 향상을 이끌어내는가?

주요 결과

GROVER는 최신 기술 수준의 방법에 비해 11개의 도전적인 분자 성질 예측 벤치마크에서 평균 6퍼센트 이상의 향상을 기록한다.
거대한 레이블이 없는 데이터에서 자기지도 사전 훈련을 통해 새로 합성된 분자에 대한 강력한 일반화 성능을 보여준다.
메시지 전파와 트랜스포머 어텐션의 통합은 표준 GNN보다 더 표현력 있는 분자 표현을 가능하게 한다.
다수준 자기지도 학습(노드, 엣지, 그래프)은 풍부한 구조적 및 의미적 특징 학습에 기여한다.
1000만 개의 레이블이 없는 분자에서의 사전 훈련은 최소한의 하류 미세조정으로도 효과적인 전이 학습을 가능하게 한다.
결과는 표현력 있는 아키텍처와 잘 설계된 자기지도 손실 함수가 분자 표현 학습에서 성능 향상에 핵심적인 역할을 한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.