[논문 리뷰] Molecular representation learning with language models and domain-relevant auxiliary tasks
MolBert는 도메인 관련 보조 작업으로 사전 학습하여 유연한 분자 표현을 학습하는 BERT 유사 트랜스포머를 사용하며, Virtual Screening 및 QSAR 성능이 향상되고 벤치마크 데이터세트에서 최신 결과를 달성합니다.
We apply a Transformer architecture, specifically BERT, to learn flexible and high quality molecular representations for drug discovery problems. We study the impact of using different combinations of self-supervised tasks for pre-training, and present our results for the established Virtual Screening and QSAR benchmarks. We show that: i) The selection of appropriate self-supervised task(s) for pre-training has a significant impact on performance in subsequent downstream tasks such as Virtual Screening. ii) Using auxiliary tasks with more domain relevance for Chemistry, such as learning to predict calculated molecular properties, increases the fidelity of our learnt representations. iii) Finally, we show that molecular representations learnt by our model `MolBert' improve upon the current state of the art on the benchmark datasets.
연구 동기 및 목표
- 약물 발견 작업에서 Virtual Screening 및 QSAR와 같은 고품질의 분자 표현 필요성에 대한 동기를 제시한다.
- 사전 학습 중 도메인 관련 보조 자기지도 작업의 차이가 다운스트림 성능에 어떤 영향을 미치는지 조사한다.
- MolBert가 기존 벤치마크에서 최첨단 결과를 달성할 수 있음을 보여준다.
- 재현성과 추가 연구를 가능하게 하기 위한 코드와 사전 학습된 모델을 제공한다.
제안 방법
- Bidirectional Transformer(BERT)을 적용하여 SMILES 문자열로부터 분자 임베딩을 학습한다.
- MaskedLM, SMILES-Eq, PhysChemPred descriptor 예측을 포함하는 자기지도 학습 작업의 혼합으로 MolBert를 사전 학습한다.
- RDKit를 사용하여 실제 값의 물리화학적 디스크립터를 보조 사전 학습 목표로 계산한다.
- 다운스트림 작업을 통해 표현을 평가한다: Virtual Screening 및 MoleculeNet QSAR 벤치마크.
- 간단한 다운스트림 헤드로 미세조정하거나 임베딩을 유사도 검색에 직접 사용한다.
실험 결과
연구 질문
- RQ1다른 도메인 관련 보조 사전 학습 작업이 다운스트림 분자 특성 예측 및 가상 스크리닝 성능에 어떤 영향을 미치는가?
- RQ2계산된 분자 디스크립터(물리화학적 속성)를 사전 학습에 도입하면 다운스트림 작업에 대한 표현 품질이 향상되는가?
- RQ3어떤 조합의 사전 학습 작업이 Virtual Screening 및 MoleculeNet 벤치마크에서 최고의 전반적 성능을 낳는가?
주요 결과
- PhysChemPred가 가장 영향력 있는 단일 보조 작업으로, 혼합 없이(또는 순열 여부에 관계없이) 사용할 때 평균 BEDROC20이 0.292를 달성한 반면 MaskedLM 단독은 0.266이었다.
- PhysChemPred를 MaskedLM과 결합하면 보충 효과가 발생하여 예를 들어 BEDROC20가 평균적으로 약 0.031 증가한다.
- SMILES-Eq는 일반적으로 단독으로 사용하거나 다른 작업과 함께 일부 구성에서 성능을 감소시키는 경향이 있다.
- 최고의 보조 작업 조합을 사용한 MolBert는 Virtual Screening 벤치마크에서 최첨단 디스크립터를 능가한다.
- MolBert 표현을 SVM과 결합하면 여섯 가지 MoleculeNet 벤치마크에서 전통적 디스크립터를 능가하며 MolBert를 미세조정하면 최고의 결과를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.