Skip to main content
QUICK REVIEW

[论文解读] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic

Masahi OKADA, Kazuki Sakai|arXiv (Cornell University)|Jan 29, 2026
Machine Learning in Materials Science被引用 0
一句话总结

Mol LIBRA 引入多指纹高斯过程代理集成,以及基于零-shot CLAMP 的批评者,以在有限 oracle 预算下引导遗传算法进行样本高效的分子优化,在 PMO-1K 任务上达到强劲的 Top-10 AUC。

ABSTRACT

We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.

研究动机与目标

  • 在有限的 oracle 评估预算下解决样本高效的分子优化问题。
  • 通过多指纹 GP 代理集成降低对指纹选择的敏感性。
  • 利用文本-分子对齐的零-shot 批评者(CLAMP)来热启动并在无分数数据的情况下指导候选排序。
  • 在 1,000 次评估的 Practical Molecular Optimization (PMO) 基准(PMO-1K)上展示有效性。

提出的方法

  • 使用基于 GA 的分子优化器,在 oracle 评估前用多位批评者对候选人进行预排序。
  • 构建一个覆盖六种指纹类型(ECFP、FCFP、Avalon、Pharmacophore、MAP、BoC)的高斯过程代理集合,使用 Ta nimoto 内核。
  • 加入一个零-shot CLAMP 批评者,通过文本–分子嵌入与任务描述的相似性对分子进行评分。
  • 以概率方式选择批评者,并在新 oracle 数据到来时在线更新选择权重。
  • 使用 CLAMP 或任一 GP 代理对候选进行预评估和排序,然后对顶部批次执行 oracle 评估。
  • 候选通过 BiG(Graph GA)或受 LLM 指导的编辑(Mol LIBRA-L)组件生成。

实验结果

研究问题

  • RQ1多指针 GP 代理集成能否在低预算分子优化中降低对指纹选择的性能敏感性?
  • RQ2在获得足够带标签数据之前,整合零-shot 文本–分子批评者(CLAMP)是否改善早期排序和样本效率?
  • RQ3与最先进基线相比,Mol LIBRA 在 PMO-1K 基准上的表现如何?
  • RQ4模型权重与批评者选择对整体优化性能的贡献为何?
  • RQ5将 GA 生成与语言模型辅助编辑(Mol LIBRA-L)结合是否带来性能提升?

主要发现

Graph GAREINVENTLICOGenetic GFNMol LEOTripp’s GP BOMol LIBRA-GMol LIBRA-L
Sum10.90110.67311.71411.55911.66512.56913.37614.208
  • Mol LIBRA 的变体在 PMO-1K 上表现出色,Mol LIBRA-L 在所有任务中获得最佳的总体 Top-10 AUC 总和。
  • 多指纹 GP 代理集合降低对指纹选择的敏感性,在预算约束下提升鲁棒性。
  • 将 CLAMP 作为零-shot 批评者引入,提供有价值的早期排序信号,当带标签数据稀缺时改善预评估决策。
  • Mol LIBRA-L(基于语言模型的候选生成)在多数 PMO-1K 任务上优于若干基线,在表 1 的 22 个任务中排名前列共 14/22。
  • 消融研究显示多指纹代理和 CLAMP 对整体性能提升的贡献(Mol LIBRA-G 与 Mol LIBRA-L)。
  • 相比 Tripp 的 GP BO 和基于 LLM 的基线,Mol LIBRA 变体在 1,000 次评估预算下持续表现出竞争力或优越性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。