[論文レビュー] GenMol: A Drug Discovery Generalist with Discrete Diffusion
GenMolは、SAFE表現上の離散拡散とフラグメントリマスキングを用いる多用途な分子生成フレームワークで、デノボ生成、フラグメント制約生成、ヒット生成、リード最適化に対応し、従来のGPTベース手法を上回る。
Drug discovery is a complex process that involves multiple stages and tasks. However, existing molecular generative models can only tackle some of these tasks. We present Generalist Molecular generative model (GenMol), a versatile framework that uses only a single discrete diffusion model to handle diverse drug discovery scenarios. GenMol generates Sequential Attachment-based Fragment Embedding (SAFE) sequences through non-autoregressive bidirectional parallel decoding, thereby allowing the utilization of a molecular context that does not rely on the specific token ordering while having better sampling efficiency. GenMol uses fragments as basic building blocks for molecules and introduces fragment remasking, a strategy that optimizes molecules by regenerating masked fragments, enabling effective exploration of chemical space. We further propose molecular context guidance (MCG), a guidance method tailored for masked discrete diffusion of GenMol. GenMol significantly outperforms the previous GPT-based model in de novo generation and fragment-constrained generation, and achieves state-of-the-art performance in goal-directed hit generation and lead optimization. These results demonstrate that GenMol can tackle a wide range of drug discovery tasks, providing a unified and versatile approach for molecular design. Our code is available at https://github.com/NVIDIA-Digital-Bio/genmol.
研究の動機と目的
- 統一フレームワーク内で複数の創薬タスクに対応できる単一の多用途分子生成モデルの構築を目指す。
- SAFE表現上で非自動回帰の双方向シーケンス生成を可能にする離散拡散を活用する。
- 化学空間をフラグメントレベルで効果的に探索するためのフラグメントリマスキングを導入する。
- 単一のGenMolモデルが複数の創薬シナリオでタスク固有のベースラインを上回ることを実証する。
提案手法
- SAFE分子表現へ離散拡散を適用し、BERT風ノイズ除去ネットワークを用いてSAFEシーケンスを生成する。
- マスキング拡散に由来する前方マスキングプロセスと後方アンマスキングプロセスを、時間を通じた加重MLM損失を用いたNELBO目的で導入する。
- SAFEのフラグメント順序不変性を活用し、効率性を改善するために非自動回帰・双方向並列デコードを採用する。
- フラグメントリマスキングを導入し、フラグメントをマスクチャンクで置換し離散拡散で再生成することで、フラグメントレベルでの探索を可能にする。
- 推論時にはソフトマックス温度と加法的ガンブラー乱数を用いた信頼度サンプリングで、ステップごとにトップ-Nトークンをアンマスクし、品質と多様性をバランスさせる。
- 生成中に動的なフラグメント語彙を構築・更新し、初期フラグメントを超えた探索を可能にする。

実験結果
リサーチクエスチョン
- RQ1デノボ生成、フラグメント制約生成、ヒット生成、リード最適化を単一モデルで創薬に効果的に適用できるか。
- RQ2離散拡散をSAFE表現に適用し、双方向・非自動回帰デコーディングが自動回帰・GPT風ベースと比較して生成品質と効率を改善するか。
- RQ3フラグメントリマスキングはトークンレベルのリマスキングと比較して、リード最適化とヒット生成における化学空間の探索を上回るか。
- RQ4GenMolはタスクとサンプリング設定全体で品質と多様性のバランスをどのように取るか。
主な発見
- GenMolはデノボ生成やフラグメント制約生成を含む複数タスクで従来のGPTベースのSAFE-GPTを大幅に上回る。
- GenMolはゴール指向のヒット生成とリード最適化で最先端の性能を達成する。
- 非自動回帰・双方向デコーディングと離散拡散によりサンプリングが高速化され、分子文脈の利活用が向上する。
- フラグメントリマスキングはフラグメントレベルでの化学空間探索を効果的に可能にし、トークンレベルのリマスキングよりも最適化タスクの性能を向上させる。
- GenMolはデノボ生成でほぼ完全な一意性を保ち、設定間で品質-多様性のトレードオフが強いことを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。