[論文レビュー] Domain-Agnostic Molecular Generation with Chemical Feedback
MolGenは、SELFIESベースの事前学習、ドメイン非依存のプレフィックスチューニング、および自己フィードバックループを用いて、化学的に有効な分子を生成し特性を最適化する事前学習済み分子言語モデルであり、合成および天然製品ドメイン全体で分子ハルシネーションを低減します。
The generation of molecules with desired properties has become increasingly popular, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face challenges such as generating syntactically or chemically flawed molecules, having narrow domain focus, and struggling to create diverse and feasible molecules due to limited annotated data or external molecular databases. To tackle these challenges, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. Through the reconstruction of over 100 million molecular SELFIES, MolGen internalizes structural and grammatical insights. This is further enhanced by domain-agnostic molecular prefix tuning, fostering robust knowledge transfer across diverse domains. Importantly, our chemical feedback paradigm steers the model away from molecular hallucinations, ensuring alignment between the model's estimated probabilities and real-world chemical preferences. Extensive experiments on well-known benchmarks underscore MolGen's optimization capabilities in properties such as penalized logP, QED, and molecular docking. Additional analyses confirm its proficiency in accurately capturing molecule distributions, discerning intricate structural patterns, and efficiently exploring the chemical space. Code is available at https://github.com/zjunlp/MolGen.
研究の動機と目的
- 構文的/化学的無効性、合成分子へのドメインバイアス、ハルシネーションといった分子生成の課題に対処する。
- 合成物と天然産物の両方にわたる堅牢な分子生成のための、ドメイン非依存の事前学習分子言語モデルを開発する。
- 生成分子の確率を現実の化学的嗜好と整合させることで分子ハルシネーションを緩和する。
- ペナルティ付きlogP、QED、ドッキングスコアなどの性質を最適化しつつ、化学空間の効率的な探索を可能にする。
提案手法
- 二段階のドメイン非依存事前学習: (i) 文法と構造を学ぶために1億を超える破損SELFIES分子を再構成; (ii) Transformerの注意機構に共通プレフィックスを注入してドメイン非依存の分子プレフィックスチューニングを行い、ドメイン間の知識を転移する。
- 自己フィードバックパラダイムは、ランクリスクを用いてモデル由来の性質ランキングを化学的嗜好と整合させ、トークンレベルのクロスエントロピーとシーケンスレベルの指針を組み合わせてハルシネーションを低減する。
- 頑健な分子言語であるSELFIESを用いて構文の妥当性を保証し、一般的なSMILESの落とし穴を回避する。
- ラベルスムージングと調整可能な重みを組み合わせて、生成品質と性質最適化のバランスを取る。
- 合成物および天然生成物データセットで分布学習、サブ構造の把握、ドッキング関連の性質最適化を評価する。
実験結果
リサーチクエスチョン
- RQ1ドメイン非依存の事前学習分子言語モデルは、合成および天然産物ドメイン全体で化学的に有効な分子を生成できるか?
- RQ2ドメイン非依存のプレフィックスチューニングは、ドメイン横断の転移と分子生成品質を改善するか?
- RQ3自己フィードバック機構は分子ハルシネーションを減らし、生成能力を維持しつつ化学的嗜好との整合を改善できるか?
- RQ4ペナルティ付きlogP、QED、タンパク質ドッキング親和性などの性質を最適化しつつ、分子多様性を保つことがどれほど効果的か?
主な発見
- MolGenは追加の原子価検証を要することなく化学的に有効な分子を生成し、合成および天然生成物ドメインに跨る現実的な分布パターンを捉える。
- MolGenは高い妥当性と多様性の指標を達成し、サブ構造(SNN、IntDiv)および新規性の性能が高く、化学空間の良好な探索を示す。
- 自己フィードバックパラダイムは、性質最適化(例:ペナルティ付きlogPおよびドッキング親和性ターゲット)を大幅に改善しつつ分子ハルシネーションを緩和する。
- MolGenはESR1およびACAA1の結合親和性を狙う際に、いくつかのベースラインと比べて優位または競争力のある性能を示し、類似性を維持した制約付き最適化を効果的に可能にする。
- アテンションの可視化は、MolGenが意味のあるサブ構造に焦点を当てており、ドメイン非依存プレフィックスがクロスドメイン学習を導くのを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。