QUICK REVIEW

[논문 리뷰] Learn molecular representations from large-scale unlabeled molecules for drug discovery

Pengyong Li, Jun Wang|arXiv (Cornell University)|2020. 12. 21.

Computational Drug Discovery Methods참고 문헌 60인용 수 24

한 줄 요약

이 논문은 1100만 개의 레이블이 없는 분자를 기반으로 자기지도 학습 기반의 그래프 신경망(MolGNet)을 사용하여 표현력 있는 분자 표현을 학습하는 자율적 분자 사전학습 프레임워크 MPG를 제안한다. 노드 수준 및 그래프 수준의 대비 학습을 결합하고 전역 표현을 위해 가상의 수집 노드를 도입함으로써, 단 한 개의 추가 레이어로 미세조정한 후 13개의 약물 발견 벤치마크에서 최고 성능을 기록한다.

ABSTRACT

How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.

연구 동기 및 목표

AI 기반의 약물 발견에서 레이블이 부족한 문제를 해결하기 위해 대규모 레이블이 없는 분자에서의 사전학습을 가능하게 한다.
분자 성질 예측, 약물-약물 상호작용, 약물-타겟 상호작용 분야에서 작은 레이블 데이터셋으로 인한 지도 학습 GNN의 일반화 한계를 극복한다.
국소 원자적 특징과 전역 분자 그래프 특징을 모두 포괄하는 통합된 분자 표현 프레임워크를 개발한다.
최소한의 미세조정으로 사전학습된 모델을 하류 약물 발견 과제로의 전이 학습을 가능하게 한다.

제안 방법

원자 및 결합 특징에 대한 메시지 전파를 수행하는 분자 표현 학습을 위한 목적에 맞춘 GNN 아키텍처인 MolGNet을 제안한다.
두 개의 부분그래프가 동일계열인지 여부를 구분하는 부분그래프 예측(PSD) 기반의 새로운 자기지도 사전학습 전략을 도입한다.
분자를 두 개의 부분그래프로 분해하고, 한 부분그래프를 다른 분자의 부분그래프로 무작위로 교체함으로써 음성 샘플링을 수행한다.
모든 노드에 연결된 가상의 수집 노드를 사용하여 정보를 집계하고, 두 개의 분리된 부분그래프에서 전역 그래프 수준의 표현을 생성한다.
다른 분자에서 온 부분그래프를 구분할 수 있도록 학습된 특징 임베딩과 세그먼트 임베딩을 결합하여 입력 표현을 구성한다.
레이블이 필요한 데이터 없이도 구분 가능한 표현을 학습하기 위해 PSD 과제에서 교차 엔트로피 손실을 최적화한다.

실험 결과

연구 질문

RQ1대규모 레이블이 없는 분자에서 자기지도 사전학습을 수행하면 하류 약물 발견 과제의 분자 표현 학습 성능이 향상되는가?
RQ2레이블이 없는 데이터에 의존하지 않고도 GNN 기반 모델이 해석 가능하고 일반화 가능한 분자 표현을 학습할 수 있는가?
RQ3제안된 부분그래프 예측(PSD) 전략이 국소 및 전역 분자 특징을 얼마나 효과적으로 포착하는가?
RQ41100만 개의 분자에서의 사전학습이 다양한 약물 발견 벤치마크에서 성능 향상에 얼마나 기여하는가?

주요 결과

사전학습된 MolGNet 모델은 분자 성질 예측, 약물-약물 상호작용, 약물-타겟 상호작용 과제의 13개 벤치마크 데이터셋에서 최고 성능을 기록한다.
1100만 개의 레이블이 없는 분자에서 사전학습한 후, MolGNet은 표현력 있고 해석 가능한 화학 지식 기반의 표현을 학습한다.
단 한 개의 추가 출력 레이어로 미세조정한 사전학습 모델이, 레이블 데이터가 제한된 조건에서도 지도 기반 베이스라인보다 뛰어난 성능을 기록한다.
가상의 수집 노드를 사용함으로써 전역 그래프 수준의 표현 학습 성능이 크게 향상된다.
PSD 자기지도 과제는 구조적 유사성을 효과적으로 포착하며 다양한 분자 구조에서 강력한 일반화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.