[논문 리뷰] GP-MoLFormer: A Foundation Model For Molecular Generation
GP-MoLFormer은 46.8M 매개변수를 가진 자기회귀(SMILES) 생성기로, 0.65–1.1B 정규화된 SMILES를 학습하는 동안 암기와 데이터 편향을 분석하고, 세 가지 분자생성 작업에 걸쳐 골격 데코레이션과 특성 주도 최적화를 목표로 하는 페어-튜닝(pair-tuning)을 적용한다.
Transformer-based models trained on large and general purpose datasets consisting of molecular strings have recently emerged as a powerful tool for successfully modeling various structure-property relations. Inspired by this success, we extend the paradigm of training chemical language transformers on large-scale chemical datasets to generative tasks in this work. Specifically, we propose GP-MoLFormer, an autoregressive molecular string generator that is trained on more than 1.1B (billion) chemical SMILES. GP-MoLFormer uses a 46.8M parameter transformer decoder model with linear attention and rotary positional encodings as the base architecture. GP-MoLFormer's utility is evaluated and compared with that of existing baselines on three different tasks: de novo generation, scaffold-constrained molecular decoration, and unconstrained property-guided optimization. While the first two are handled with no additional training, we propose a parameter-efficient fine-tuning method for the last task, which uses property-ordered molecular pairs as input. We call this new approach pair-tuning. Our results show GP-MoLFormer performs better or comparable with baselines across all three tasks, demonstrating its general utility for a variety of molecular generation tasks. We further report strong memorization of training data in GP-MoLFormer generations, which has so far remained unexplored for chemical language models. Our analyses reveal that training data memorization and novelty in generations are impacted by the quality and scale of the training data; duplication bias in training data can enhance memorization at the cost of lowering novelty. We further establish a scaling law relating inference compute and novelty in generations.
연구 동기 및 목표
- 대규모 화학 언어 모델에서 규모와 학습 데이터 편향이 암기와 생성에 어떤 영향을 미치는지 이해한다.
- 대규모에서 de novo 분자 생성의 품질과 다양성을 입증한다.
- 매개변수 효율적 튜닝 방법을 사용한 scaffold-제약 데코레이션 및 비제약 속성-유도 최적화를 평가한다.
- 화학 언어 모델에서 데이터 중복 제거가 신규성 및 암기에 미치는 영향을 제시한다.
제안 방법
- 12층, 12개 헤드, 숨겨진 차원 768, 일반화된 랜덤 푸리에 특징을 사용하는 선형 어텐션을 갖춘 디코더-전용 트랜스포머.
- SMILES 토큰 의존성을 모델링하기 위해 로터리 위치 임베딩을 사용한다.
- 이전 컨텍스트를 바탕으로 다음 토큰을 예측하는 자기회귀적 인과적 언어 모델링 목표.
- 공개 데이터베이스의 0.65–1.1B 정규화된 SMILES를 대상으로 사전 학습.
- 다양한 학습 데이터 품질과 생성 풀 크기에 따른 암기 대 신규성의 평가.
- 페어-튜닝: 전체 모델 미세조정 없이 속성 최적화 분자를 조건화하도록 강화 토큰을 학습하는 프롬프트-튜닝 방법.
실험 결과
연구 질문
- RQ1학습 데이터 규모와 중복 제거가 대규모 생성 화학 언어 모델의 암기와 신규성에 어떤 영향을 미치는가?
- RQ2GP-MoLFormer가 수십억 규모의 생성 풀에서 신규하고 유효하며 다양한 분자를 생성할 수 있는가?
- RQ3GP-MoLFormer가 de novo 생성, scaffold-constrained decoration, 그리고 unconstrained property-guided optimization에서 기준선과 경쟁하는가?
- RQ4페어-튜닝이 전체 모델 미세조정 없이도 효율적인 속성 최적화를 가능하게 하는가?
주요 결과
| Training Size | Generation Size | Novel | Unique | Valid |
|---|---|---|---|---|
| 650M | 30k | 0.323 | 0.997 | 0.997 |
| 650M | 100k | 0.326 | 0.998 | 0.998 |
| 650M | 1M | 0.323 | 0.996 | 0.997 |
| 650M | 10M | 0.322 | 0.989 | 0.997 |
| 1.1B | 30k | 0.323 | 0.997 | 0.997 |
| 1.1B | 100k | 0.326 | 0.998 | 0.998 |
| 1.1B | 1M | 0.323 | 0.996 | 0.997 |
| 1.1B | 10M | 0.322 | 0.956 | 0.997 |
- GP-MoLFormer는 최대 10억 개의 분자를 생성하더라도 신규하고 유효하며 고유한 SMILES를 생성할 수 있다; 99%가 풀에서 유효하다.
- 순수 학습 데이터의 신규성은 약 32%이며, 학습 데이터가 중복 제거(Clean)될 때 신규성이 약간 증가하여 약 7–8% 정도 상승한다.
- 10M 생성에서 Raw의 신규성은 0.322이고, Clean은 0.322로 약간의 증가를 보이며 암기가 Training 데이터와의 정확일치 비율이 높게 나타난다(최대 60%).
- 데이터 중복 제거는 암기 편향을 감소시키고 데이터 매니폴드에서 특정 분자의 과도한 대표성을 줄여 신규성을 높인다.
- GP-MoLFormer는 de novo 생성, scaffold-constrained decoration, 및 unconstrained property optimization에서 기준선을 상회하거나 동등한 수준의 성과를 낸다.
- 페어-튜닝은 전체 미세조정 없이도 penalized logP, QED, DRD2 활성 optimizaton에 대해 경쟁력 있거나 우수한 결과를 가능하게 하며, 다수의 기준선과의 표 비교가 실증된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.