[論文レビュー] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic
Mol LIBRAはマルチフィンガープリントGP代替案エンサームとゼロショットCLAMPベースの批評家を組み合わせ、サンプル効率の高い分子最適化をオラクル評価予算が限られた状況でGAをガイダンス。PMO-1KタスクでTop-10 AUCが高い。
We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.
研究の動機と目的
- 限られたオラクル評価予算下でのサンプル効率の高い分子最適化に取り組む。
- マルチフィンガープリントGP代替案エンサームを用いて指紋選択に対する感度を低減する。
- スコア付きデータが不足している段階で、テキスト-分子整合のゼロショット批評家(CLAMP)を活用して温めと候補のランキングを導く。
- PMOベンチマーク(PMO-1K)で1000評価以下の条件下で有効性を示す。
提案手法
- オラクル評価前に複数の批評家で候補を予備ランキングするGAベースの分子最適化器を使用する。
- 6つのフィンガープリントタイプ(ECFP、FCFP、Avalon、Pharmacophore、MAP、BoC)に対してタンニモトス kernel を用いたガウス過程代替案のアンサンブルを構築する。
- タスク説明とテキスト–分子埋込み類似性を用いて分子を評価するゼロショットCLAMP批評家を組み込む。
- 新規批評家を確率的に選択し、オンラインで選択重みを更新する。
- CLAMPまたはGP代替案のいずれかを用いて候補を事前評価・ランク付けし、トップのバッチに対してオラクル評価を実施する。
- 候補はBiG(Graph GA)またはLMMガイド編集(Mol LIBRA-L)コンポーネントで生成される。
実験結果
リサーチクエスチョン
- RQ1低予算の分子最適化において、マルチフィンガープリントGP代替案エンサームは指紋選択の感度を低減できるか。
- RQ2ゼロショットのテキスト–分子批評家(CLAMP)を導入すると、十分なラベル付きデータが得られる前の初期ランキングとサンプル効率が改善されるか。
- RQ3Mol LIBRAはPMO-1Kベンチマークで最先端ベースラインと比較してどのように性能を示すか。
- RQ4モデル重み付けと批評家選択の寄与は全体の最適化性能にどの程度影響するか。
- RQ5GAベースの生成とLLM支援編集(Mol LIBRA-L)の組み合わせは性能向上をもたらすか。
主な発見
| Graph GA | REINVENT | LICO | Genetic GFN | Mol LEO | Tripp’s GP BO | Mol LIBRA-G | Mol LIBRA-L | |
|---|---|---|---|---|---|---|---|---|
| Sum | 10.901 | 10.673 | 11.714 | 11.559 | 11.665 | 12.569 | 13.376 | 14.208 |
- Mol LIBRA変種はPMO-1Kで強力な性能を示し、Mol LIBRA-Lがタスク全体で最良のTop-10 AUC総和を達成。
- マルチフィンガープリントGP代替案エンサームは指紋選択の感度を低減し、予算制約下の頑健性を強化。
- CLAMPをゼロショット批評家として組み込むと、事前評価の意思決定を改善する有用な早期ランク信号を提供。
- Mol LIBRA-L(言語モデルを用いた候補生成)はPMO-1Kタスクの多くで他のベースラインを上回り、表1の22タスク中14タスクでトップ。
- アブレーション研究は、マルチフィンガープリント代替案とCLAMPの寄与を全体的な性能向上へ示す(Mol LIBRA-GおよびMol LIBRA-L)。
- TrippのGP BOおよびLLMベースのベースラインと比較して、Mol LIBRA変種は1000評価予算の下で一貫して競争力があるか、または優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。