[论文解读] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic
Mol LIBRA 引入多指纹高斯过程代理集成,以及基于零-shot CLAMP 的批评者,以在有限 oracle 预算下引导遗传算法进行样本高效的分子优化,在 PMO-1K 任务上达到强劲的 Top-10 AUC。
We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.
研究动机与目标
- 在有限的 oracle 评估预算下解决样本高效的分子优化问题。
- 通过多指纹 GP 代理集成降低对指纹选择的敏感性。
- 利用文本-分子对齐的零-shot 批评者(CLAMP)来热启动并在无分数数据的情况下指导候选排序。
- 在 1,000 次评估的 Practical Molecular Optimization (PMO) 基准(PMO-1K)上展示有效性。
提出的方法
- 使用基于 GA 的分子优化器,在 oracle 评估前用多位批评者对候选人进行预排序。
- 构建一个覆盖六种指纹类型(ECFP、FCFP、Avalon、Pharmacophore、MAP、BoC)的高斯过程代理集合,使用 Ta nimoto 内核。
- 加入一个零-shot CLAMP 批评者,通过文本–分子嵌入与任务描述的相似性对分子进行评分。
- 以概率方式选择批评者,并在新 oracle 数据到来时在线更新选择权重。
- 使用 CLAMP 或任一 GP 代理对候选进行预评估和排序,然后对顶部批次执行 oracle 评估。
- 候选通过 BiG(Graph GA)或受 LLM 指导的编辑(Mol LIBRA-L)组件生成。
实验结果
研究问题
- RQ1多指针 GP 代理集成能否在低预算分子优化中降低对指纹选择的性能敏感性?
- RQ2在获得足够带标签数据之前,整合零-shot 文本–分子批评者(CLAMP)是否改善早期排序和样本效率?
- RQ3与最先进基线相比,Mol LIBRA 在 PMO-1K 基准上的表现如何?
- RQ4模型权重与批评者选择对整体优化性能的贡献为何?
- RQ5将 GA 生成与语言模型辅助编辑(Mol LIBRA-L)结合是否带来性能提升?
主要发现
| Graph GA | REINVENT | LICO | Genetic GFN | Mol LEO | Tripp’s GP BO | Mol LIBRA-G | Mol LIBRA-L | |
|---|---|---|---|---|---|---|---|---|
| Sum | 10.901 | 10.673 | 11.714 | 11.559 | 11.665 | 12.569 | 13.376 | 14.208 |
- Mol LIBRA 的变体在 PMO-1K 上表现出色,Mol LIBRA-L 在所有任务中获得最佳的总体 Top-10 AUC 总和。
- 多指纹 GP 代理集合降低对指纹选择的敏感性,在预算约束下提升鲁棒性。
- 将 CLAMP 作为零-shot 批评者引入,提供有价值的早期排序信号,当带标签数据稀缺时改善预评估决策。
- Mol LIBRA-L(基于语言模型的候选生成)在多数 PMO-1K 任务上优于若干基线,在表 1 的 22 个任务中排名前列共 14/22。
- 消融研究显示多指纹代理和 CLAMP 对整体性能提升的贡献(Mol LIBRA-G 与 Mol LIBRA-L)。
- 相比 Tripp 的 GP BO 和基于 LLM 的基线,Mol LIBRA 变体在 1,000 次评估预算下持续表现出竞争力或优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。