Skip to main content
QUICK REVIEW

[논문 리뷰] Large-Scale Chemical Language Representations Capture Molecular Structure and Properties

Jerret Ross, Brian Belgodere|arXiv (Cornell University)|2021. 06. 17.
Computational Drug Discovery Methods인용 수 31
한 줄 요약

MoLFormer는 1.0억개가 넘는 SMILES에서 트랜스포머 인코더를 사전 학습하여 3D 기하학 없이도 양자화학적 특성을 포함한 광범위한 화학 속성을 경쟁적으로 예측하는 보편적 분자 표현을 학습합니다.

ABSTRACT

Models based on machine learning can enable accurate and fast molecular property predictions, which is of interest in drug discovery and material design. Various supervised machine learning models have demonstrated promising performance, but the vast chemical space and the limited availability of property labels make supervised learning challenging. Recently, unsupervised transformer-based language models pretrained on a large unlabelled corpus have produced state-of-the-art results in many downstream natural language processing tasks. Inspired by this development, we present molecular embeddings obtained by training an efficient transformer encoder model, MoLFormer, which uses rotary positional embeddings. This model employs a linear attention mechanism, coupled with highly distributed training, on SMILES sequences of 1.1 billion unlabelled molecules from the PubChem and ZINC datasets. We show that the learned molecular representation outperforms existing baselines, including supervised and self-supervised graph neural networks and language models, on several downstream tasks from ten benchmark datasets. They perform competitively on two others. Further analyses, specifically through the lens of attention, demonstrate that MoLFormer trained on chemical SMILES indeed learns the spatial relationships between atoms within a molecule. These results provide encouraging evidence that large-scale molecular language models can capture sufficient chemical and structural information to predict various distinct molecular properties, including quantum-chemical properties.

연구 동기 및 목표

  • 대규모 라벨이 없는 SMILES 데이터로부터 보편적 분자 표현 학습.
  • MoleculeNet의 다양한 분류 및 회귀 태스크에서 학습된 표현을 평가한다.
  • SMILES로 학습된 모델이 구조적이고 공간적인 분자 정보를 포착하는지 분석한다.

제안 방법

  • PubChem와 ZINC에서 1.1 billion SMILES를 마스킹 언어 모델링으로 MoLFormer를 사전 학습한다.
  • 확장 가능한 학습을 위해 rotary positional embeddings와 linear attention을 사용한다.
  • 고정 크기 분자 표현을 형성하기 위해 마지막 은닉 상태 임베딩을 평균화하여 SMILES를 인코딩한다.
  • 고정(frozen) 및 미세 조정(fine-tuned) 레지임에서 다운스트림 태스크에 대해 소형 태스크 특화 헤드를 미세조정한다.
  • GNN 및 언어 모델을 포함한 다양한 지도 및 자기지도 학습 baselines와 성능을 비교한다.

실험 결과

연구 질문

  • RQ1대규모로 사전 학습된 분자 언어 모델이 광범위한 분자 속성을 예측하는 표현을 학습할 수 있는가?
  • RQ2SMILES 기반 표현이 명시적 3D 기하학 없이 부분 구조 및 원자 간 거리와 같은 구조 정보를 포착하는가?
  • RQ3MoLFormer가 MoleculeNet 분류 및 회귀 벤치마크에서 그래프 기반 및 다른 baselines와 어떻게 비교되는가?
  • RQ4모델 크기, 데이터 규모, 위치 임베딩 선택이 다운스트림 성능에 어떤 영향을 미치는가?

주요 결과

  • MoLFormer-XL은 1.1B 분자로 선형 어텐션과 rotary 임베딩을 사용하여 MoleculeNet의 10개 태스크(분류 및 회귀)에서 많은 베이스라인과 비슷하거나 우수한 성능을 달성한다.
  • MoLFormer 표현은 여러 그래프 기반 및 언어 모델 베이스라인보다 우수하며, 양자화학적 특성을 포함한 다른 벤치마크에서도 경쟁력이 있다.
  • 분석은 MoLFormer가 분자 내의 공간적 관계의 측면을 학습하고, 어텐션이 원자 간 거리 및 결합 패턴과 상관관계가 있음을 보인다.
  • 선형 어텐션과 함께 rotary positional embeddings는 대규모 학습에서 효율적인 학습을 가능하게 하여 필요한 GPU 수를 대략 60배 정도 줄인다.
  • 소거 연구는 모델 깊이와 미세 조정이 다운스트림 성능에 상당한 영향을 미치는 반면, 데이터 혼합 및 위치 임베딩은 결과에 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.