[論文レビュー] From Tokens to Blocks: A Block-Diffusion Perspective on Molecular Generation
SoftMolはソフトフラグメントSMILES表現とゲート付きMCTSを備えたブロック拡散分子言語モデル(SoftBD)を提案し、100%の妥当性と高速サンプリングで最先端のデノボおよびターゲット特異的な結果を達成します。
Drug discovery can be viewed as a combinatorial search over an immense chemical space, motivating the development of deep generative models for de novo molecular design. Among these, GPT-based molecular language models (MLM) have shown strong molecular design performance by learning chemical syntax and semantics from large-scale data. However, existing MLMs face two fundamental limitations: they inadequately capture the graph-structured nature of molecules when formulated as next-token prediction problems, and they typically lack explicit mechanisms for target-aware generation. Here, we propose SoftMol, a unified framework that co-designs molecular representation, model architecture, and search strategy for target-aware molecular generation. SoftMol introduces soft fragments, a rule-free block representation of SMILES that enables diffusion-native modeling, and develops SoftBD, the first block-diffusion molecular language model that combines local bidirectional diffusion with autoregressive generation under molecular structural constraints. To favor generated molecules with high drug-likeness and synthetic accessibility, SoftBD is trained on a carefully curated dataset named ZINC-Curated. SoftMol further integrates a gated Monte Carlo tree search to assemble fragments in a target-aware manner. Experimental results show that, compared with current state-of-the-art models, SoftMol achieves 100% chemical validity, improves binding affinity by 9.7%, yields a 2-3x increase in molecular diversity, and delivers a 6.6x speedup in inference efficiency. Code is available at https://github.com/szu-aicourse/softmol
研究の動機と目的
- 自動回帰トークン予測を超えてグラフ構造をより適切に捉えることで分子生成を改善する動機付け。
- ターゲット認識設計のための分子表現、モデルアーキテクチャ、および探索戦略を共設計する。
- 化学的妥当性を固定長ブロック内で保証するブロックモデリングを導入する。
- 薬理学的制約の下でデノボ生成とタンパク質ターゲット設計において最先端の性能を示す。
提案手法
- 固定長SMILESをヒューリスティックルールなしに連続ブロックへ分割してソフトフラグメントを定義する。
- ブロック間因果注意とブロック内双方向注意を備えるブロック拡散トランスフォーマーSoftBDを実装し、局所的な化学的サブ構造をモデル化する。
- 薬物適合性と合成アクセス性を促進するためにZINC-CuratedでSoftBDを訓練する。
- First-Hittingサンプリングと確信度順のトークンマスキングを用いた半自己回帰的ブロック生成を適応的信頼デコードで行う。
- ターゲットタンパク質へ向けてフラグメントを組み立てるために Tunable Feasibility Gateを備えたゲート付きMonte Carlo木探索(MCTS)を統合する。
実験結果
リサーチクエスチョン
- RQ1ブロック拡散表現はトークンベースの MLMと比較して化学的妥当性とモデルの頑健性にどのような影響を与えるか。
- RQ2拡散ネイティブモデリングと制約探索を組み合わせたターゲット認識生成パイプラインは結合親和性と薬物適合性を改善できるか。
- RQ3表現の粒度(ソフトフラグメント長)と生成/推論効率のトレードオフはどうなるか。
- RQ4Feasibility GateをMCTSと統合することでヒット率とターゲット特異的設計の多様性は改善されるか。
主な発見
| 方法 | 妥当性(%) | 一意性(%) | 品質(%) | ドッキングフィルター(%) | 多様性 |
|---|---|---|---|---|---|
| SAFE-GPT (Noutahi et al., 2024) | 93.2±0.1 | 100.0±0.0 | 54.4±0.6 | 78.3±0.5 | 0.879±0.000 |
| GenMol (Lee et al., 2025) | 99.9±0.1 | 96.0±0.3 | 85.2±0.4 | 97.8±0.1 | 0.817±0.000 |
| SoftBD (p=1.0, τ=0.9) | 99.8±0.0 | 100.0±0.0 | 87.1±0.2 | 98.5±0.1 | 0.871±0.000 |
| SoftBD (p=1.0, τ=1.0) | 99.6±0.0 | 100.0±0.0 | 84.7±0.2 | 97.8±0.1 | 0.878±0.000 |
| SoftBD (p=1.0, τ=1.1) | 99.1±0.0 | 100.0±0.0 | 81.7±0.3 | 96.5±0.1 | 0.883±0.000 |
| SoftBD (p=1.0, τ=1.2) | 98.3±0.0 | 100.0±0.0 | 77.7±0.3 | 94.2±0.2 | 0.888±0.000 |
| SoftBD (p=1.0, τ=1.3) | 96.7±0.1 | 100.0±0.0 | 72.9±0.3 | 91.1±0.2 | 0.893±0.000 |
| SoftBD (p=0.95, τ=0.9) | 100.0±0.0 | 98.4±0.1 | 93.5±0.2 | 99.8±0.0 | 0.844±0.000 |
| SoftBD (p=0.95, τ=1.0) | 100.0±0.0 | 99.4±0.1 | 92.8±0.0 | 99.7±0.0 | 0.851±0.000 |
| SoftBD (p=0.95, τ=1.1) | 100.0±0.0 | 99.6±0.1 | 91.9±0.1 | 99.6±0.0 | 0.858±0.000 |
| SoftBD (p=0.95, τ=1.2) | 99.9±0.0 | 99.8±0.0 | 90.8±0.1 | 99.3±0.1 | 0.867±0.000 |
| SoftBD (p=0.95, τ=1.3) | 99.9±0.0 | 99.8±0.1 | 88.9±0.2 | 98.9±0.1 | 0.871±0.000 |
| SoftBD (p=0.9, τ=0.9) | 100.0±0.0 | 90.0±0.2 | 94.9±0.2 | 99.9±0.0 | 0.829±0.000 |
| SoftBD (p=0.9, τ=1.0) | 100.0±0.0 | 96.0±0.1 | 94.0±0.2 | 99.8±0.0 | 0.839±0.000 |
| SoftBD (p=0.9, τ=1.1) | 100.0±0.0 | 98.0±0.1 | 93.3±0.3 | 99.8±0.0 | 0.846±0.000 |
| SoftBD (p=0.9, τ=1.2) | 100.0±0.0 | 99.1±0.1 | 92.4±0.2 | 99.7±0.1 | 0.852±0.000 |
| SoftBD (p=0.9, τ=1.3) | 100.0±0.0 | 99.3±0.1 | 91.7±0.2 | 99.6±0.0 | 0.858±0.000 |
- SoftBDはほとんどの設定で100%の化学的妥当性を達成。
- SoftMolはデノボおよびターゲット認識設定でベースラインより結合親和性を9.7%向上。
- 多様性は主要ベースラインと比較して2–3倍の増加。
- 10k分子をサンプリングする際の推論速度はGenMol(離散拡散)と比較して約6.6倍の改善。
- ターゲット特異的タスクで約3,000回の試行あたりほぼ3,000件の高い一意性を維持。
- 高品質なZINC-Curated訓練セットとブロック拡散モデリングを用いることで、デノボおよびターゲット特異的分子設計の両方で最先端の性能を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。