[논문 리뷰] GenMol: A Drug Discovery Generalist with Discrete Diffusion
GenMol은 SAFE 표현에서 이산 확산을 사용하고 fragment remasking으로 de novo 생성, fragment-constrained 생성, 목표 지향 hit 생성, 그리고 리드 최적화를 다루는 다목적 분자 생성 프레임워크로, 이전의 GPT 기반 방법들보다 성능이 우수합니다.
Drug discovery is a complex process that involves multiple stages and tasks. However, existing molecular generative models can only tackle some of these tasks. We present Generalist Molecular generative model (GenMol), a versatile framework that uses only a single discrete diffusion model to handle diverse drug discovery scenarios. GenMol generates Sequential Attachment-based Fragment Embedding (SAFE) sequences through non-autoregressive bidirectional parallel decoding, thereby allowing the utilization of a molecular context that does not rely on the specific token ordering while having better sampling efficiency. GenMol uses fragments as basic building blocks for molecules and introduces fragment remasking, a strategy that optimizes molecules by regenerating masked fragments, enabling effective exploration of chemical space. We further propose molecular context guidance (MCG), a guidance method tailored for masked discrete diffusion of GenMol. GenMol significantly outperforms the previous GPT-based model in de novo generation and fragment-constrained generation, and achieves state-of-the-art performance in goal-directed hit generation and lead optimization. These results demonstrate that GenMol can tackle a wide range of drug discovery tasks, providing a unified and versatile approach for molecular design. Our code is available at https://github.com/NVIDIA-Digital-Bio/genmol.
연구 동기 및 목표
- 단일하고 다목적의 분자 생성기를 구축해 통합 프레임워크 내에서 여러 약물 발견 과제를 처리하는 것을 목표로 한다.
- SAFE 표현에서 비자기회귀적, 양방향 시퀀스 생성을 가능하게 하기 위해 이산 확산을 활용한다.
- 조각 수준에서 화학 공간을 효과적으로 탐색하기 위해 fragment remasking을 도입한다.
- 단일 GenMol 모델이 다수의 약물 발견 시나리오에서 작업별 기초 모델보다 우수하다는 것을 입증한다.
제안 방법
- SAFE 분자 표현에 이산 확산을 적용해 BERT-스타일 디노이징 네트워크로 SAFE 시퀀스를 생성한다.
- 마스킹된 확산에서 파생된 전방 마스킹 프로세스와 역방향 언마스킹 프로세스를 NELBO 목표(시간에 따른 가중 MLM 손실)로 활용한다.
- SAFE의 fragment 순서 불변성과 비자기귀속성 효율성을 활용하기 위해 비자기귀속적, 양방향 병렬 디코딩을 채택한다.
- fragment remasking을 도입해 조각을 마스크 청크로 교체하고 이들을 이산 확산으로 재생성해 조각 수준에서의 탐색을 가능하게 한다.
- 추론 시 소프트맥스 온도와 추가적인 Gumbel 기반 무작위성을 사용해 상위-N 토큰의 언마스크를 수행하고 품질/다양성의 균형을 맞춘다.
- 생성 중 동적 fragment 어휘를 구성하고 이를 업데이트해 초기 프래그먼트를 넘어선 탐색을 가능하게 한다.

실험 결과
연구 질문
- RQ1단일 생성 모델이 신약 발견에서 de novo 생성, fragment-constrained 생성, hit 생성, lead 최적화를 효과적으로 적용할 수 있는가?
주요 결과
- GenMol은 de novo 및 fragment-constrained 생성을 포함한 여러 작업에서 기존의 GPT 기반 SAFE-GPT보다 크게 우수하다.
- GenMol은 목표 지향적 hit 생성 및 lead 최적화에서 최첨단 성능을 달성한다.
- 비자기귀속적, 양방향 디코딩과 이산 확산은 더 빠른 샘플링과 분자 컨텍스트의 더 나은 활용을 가능하게 한다.
- fragment remasking은 조각 수준에서의 화학 공간 탐색을 가능하게 하며 토큰 수준의 remasking에 비해 최적화 작업에서 성능을 향상시킨다.
- GenMol은 de novo 생성에서 거의 완벽한 고유성을 보존하고 다양한 설정에서 품질-다양성 트레이드오프를 강하게 시연한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.