[논문 리뷰] Learn molecular representations from large-scale unlabeled molecules for drug discovery
이 논문은 1100만 개의 레이블이 없는 분자를 기반으로 자기지도 학습 기반의 그래프 신경망(MolGNet)을 사용하여 표현력 있는 분자 표현을 학습하는 자율적 분자 사전학습 프레임워크 MPG를 제안한다. 노드 수준 및 그래프 수준의 대비 학습을 결합하고 전역 표현을 위해 가상의 수집 노드를 도입함으로써, 단 한 개의 추가 레이어로 미세조정한 후 13개의 약물 발견 벤치마크에서 최고 성능을 기록한다.
How to produce expressive molecular representations is a fundamental challenge in AI-driven drug discovery. Graph neural network (GNN) has emerged as a powerful technique for modeling molecular data. However, previous supervised approaches usually suffer from the scarcity of labeled data and have poor generalization capability. Here, we proposed a novel Molecular Pre-training Graph-based deep learning framework, named MPG, that leans molecular representations from large-scale unlabeled molecules. In MPG, we proposed a powerful MolGNet model and an effective self-supervised strategy for pre-training the model at both the node and graph-level. After pre-training on 11 million unlabeled molecules, we revealed that MolGNet can capture valuable chemistry insights to produce interpretable representation. The pre-trained MolGNet can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of drug discovery tasks, including molecular properties prediction, drug-drug interaction, and drug-target interaction, involving 13 benchmark datasets. Our work demonstrates that MPG is promising to become a novel approach in the drug discovery pipeline.
연구 동기 및 목표
- AI 기반의 약물 발견에서 레이블이 부족한 문제를 해결하기 위해 대규모 레이블이 없는 분자에서의 사전학습을 가능하게 한다.
- 분자 성질 예측, 약물-약물 상호작용, 약물-타겟 상호작용 분야에서 작은 레이블 데이터셋으로 인한 지도 학습 GNN의 일반화 한계를 극복한다.
- 국소 원자적 특징과 전역 분자 그래프 특징을 모두 포괄하는 통합된 분자 표현 프레임워크를 개발한다.
- 최소한의 미세조정으로 사전학습된 모델을 하류 약물 발견 과제로의 전이 학습을 가능하게 한다.
제안 방법
- 원자 및 결합 특징에 대한 메시지 전파를 수행하는 분자 표현 학습을 위한 목적에 맞춘 GNN 아키텍처인 MolGNet을 제안한다.
- 두 개의 부분그래프가 동일계열인지 여부를 구분하는 부분그래프 예측(PSD) 기반의 새로운 자기지도 사전학습 전략을 도입한다.
- 분자를 두 개의 부분그래프로 분해하고, 한 부분그래프를 다른 분자의 부분그래프로 무작위로 교체함으로써 음성 샘플링을 수행한다.
- 모든 노드에 연결된 가상의 수집 노드를 사용하여 정보를 집계하고, 두 개의 분리된 부분그래프에서 전역 그래프 수준의 표현을 생성한다.
- 다른 분자에서 온 부분그래프를 구분할 수 있도록 학습된 특징 임베딩과 세그먼트 임베딩을 결합하여 입력 표현을 구성한다.
- 레이블이 필요한 데이터 없이도 구분 가능한 표현을 학습하기 위해 PSD 과제에서 교차 엔트로피 손실을 최적화한다.
실험 결과
연구 질문
- RQ1대규모 레이블이 없는 분자에서 자기지도 사전학습을 수행하면 하류 약물 발견 과제의 분자 표현 학습 성능이 향상되는가?
- RQ2레이블이 없는 데이터에 의존하지 않고도 GNN 기반 모델이 해석 가능하고 일반화 가능한 분자 표현을 학습할 수 있는가?
- RQ3제안된 부분그래프 예측(PSD) 전략이 국소 및 전역 분자 특징을 얼마나 효과적으로 포착하는가?
- RQ41100만 개의 분자에서의 사전학습이 다양한 약물 발견 벤치마크에서 성능 향상에 얼마나 기여하는가?
주요 결과
- 사전학습된 MolGNet 모델은 분자 성질 예측, 약물-약물 상호작용, 약물-타겟 상호작용 과제의 13개 벤치마크 데이터셋에서 최고 성능을 기록한다.
- 1100만 개의 레이블이 없는 분자에서 사전학습한 후, MolGNet은 표현력 있고 해석 가능한 화학 지식 기반의 표현을 학습한다.
- 단 한 개의 추가 출력 레이어로 미세조정한 사전학습 모델이, 레이블 데이터가 제한된 조건에서도 지도 기반 베이스라인보다 뛰어난 성능을 기록한다.
- 가상의 수집 노드를 사용함으로써 전역 그래프 수준의 표현 학습 성능이 크게 향상된다.
- PSD 자기지도 과제는 구조적 유사성을 효과적으로 포착하며 다양한 분자 구조에서 강력한 일반화를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.