Skip to main content
QUICK REVIEW

[논문 리뷰] GenMol: A Drug Discovery Generalist with Discrete Diffusion

Seul Lee, Karsten Kreis|arXiv (Cornell University)|2025. 01. 10.
Computational Drug Discovery Methods인용 수 3
한 줄 요약

GenMol은 SAFE 표현에서 이산 확산을 사용하고 fragment remasking으로 de novo 생성, fragment-constrained 생성, 목표 지향 hit 생성, 그리고 리드 최적화를 다루는 다목적 분자 생성 프레임워크로, 이전의 GPT 기반 방법들보다 성능이 우수합니다.

ABSTRACT

Drug discovery is a complex process that involves multiple stages and tasks. However, existing molecular generative models can only tackle some of these tasks. We present Generalist Molecular generative model (GenMol), a versatile framework that uses only a single discrete diffusion model to handle diverse drug discovery scenarios. GenMol generates Sequential Attachment-based Fragment Embedding (SAFE) sequences through non-autoregressive bidirectional parallel decoding, thereby allowing the utilization of a molecular context that does not rely on the specific token ordering while having better sampling efficiency. GenMol uses fragments as basic building blocks for molecules and introduces fragment remasking, a strategy that optimizes molecules by regenerating masked fragments, enabling effective exploration of chemical space. We further propose molecular context guidance (MCG), a guidance method tailored for masked discrete diffusion of GenMol. GenMol significantly outperforms the previous GPT-based model in de novo generation and fragment-constrained generation, and achieves state-of-the-art performance in goal-directed hit generation and lead optimization. These results demonstrate that GenMol can tackle a wide range of drug discovery tasks, providing a unified and versatile approach for molecular design. Our code is available at https://github.com/NVIDIA-Digital-Bio/genmol.

연구 동기 및 목표

  • 단일하고 다목적의 분자 생성기를 구축해 통합 프레임워크 내에서 여러 약물 발견 과제를 처리하는 것을 목표로 한다.
  • SAFE 표현에서 비자기회귀적, 양방향 시퀀스 생성을 가능하게 하기 위해 이산 확산을 활용한다.
  • 조각 수준에서 화학 공간을 효과적으로 탐색하기 위해 fragment remasking을 도입한다.
  • 단일 GenMol 모델이 다수의 약물 발견 시나리오에서 작업별 기초 모델보다 우수하다는 것을 입증한다.

제안 방법

  • SAFE 분자 표현에 이산 확산을 적용해 BERT-스타일 디노이징 네트워크로 SAFE 시퀀스를 생성한다.
  • 마스킹된 확산에서 파생된 전방 마스킹 프로세스와 역방향 언마스킹 프로세스를 NELBO 목표(시간에 따른 가중 MLM 손실)로 활용한다.
  • SAFE의 fragment 순서 불변성과 비자기귀속성 효율성을 활용하기 위해 비자기귀속적, 양방향 병렬 디코딩을 채택한다.
  • fragment remasking을 도입해 조각을 마스크 청크로 교체하고 이들을 이산 확산으로 재생성해 조각 수준에서의 탐색을 가능하게 한다.
  • 추론 시 소프트맥스 온도와 추가적인 Gumbel 기반 무작위성을 사용해 상위-N 토큰의 언마스크를 수행하고 품질/다양성의 균형을 맞춘다.
  • 생성 중 동적 fragment 어휘를 구성하고 이를 업데이트해 초기 프래그먼트를 넘어선 탐색을 가능하게 한다.
Figure 1 : Results on various drug discovery tasks. The values are quality, average quality, sum AUC top-10, and success rate for de novo generation, fragment-constrained generation, hit generation, and lead optimization, respectively. The “best baseline” refers to multiple best-performing task-spec
Figure 1 : Results on various drug discovery tasks. The values are quality, average quality, sum AUC top-10, and success rate for de novo generation, fragment-constrained generation, hit generation, and lead optimization, respectively. The “best baseline” refers to multiple best-performing task-spec

실험 결과

연구 질문

  • RQ1단일 생성 모델이 신약 발견에서 de novo 생성, fragment-constrained 생성, hit 생성, lead 최적화를 효과적으로 적용할 수 있는가?

주요 결과

  • GenMol은 de novo 및 fragment-constrained 생성을 포함한 여러 작업에서 기존의 GPT 기반 SAFE-GPT보다 크게 우수하다.
  • GenMol은 목표 지향적 hit 생성 및 lead 최적화에서 최첨단 성능을 달성한다.
  • 비자기귀속적, 양방향 디코딩과 이산 확산은 더 빠른 샘플링과 분자 컨텍스트의 더 나은 활용을 가능하게 한다.
  • fragment remasking은 조각 수준에서의 화학 공간 탐색을 가능하게 하며 토큰 수준의 remasking에 비해 최적화 작업에서 성능을 향상시킨다.
  • GenMol은 de novo 생성에서 거의 완벽한 고유성을 보존하고 다양한 설정에서 품질-다양성 트레이드오프를 강하게 시연한다.
Figure 2 : (a) GenMol architecture. GenMol adopts the BERT architecture and is trained with the NELBO loss of masked discrete diffusion. (b) Generation process of GenMol. Under masked discrete diffusion, GenMol completes a molecule by simulating backward in time and predicting masked tokens at each
Figure 2 : (a) GenMol architecture. GenMol adopts the BERT architecture and is trained with the NELBO loss of masked discrete diffusion. (b) Generation process of GenMol. Under masked discrete diffusion, GenMol completes a molecule by simulating backward in time and predicting masked tokens at each

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.