QUICK REVIEW

[论文解读] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic

Masahi OKADA, Kazuki Sakai|arXiv (Cornell University)|Jan 29, 2026

Machine Learning in Materials Science被引用 0

一句话总结

Mol LIBRA 引入多指纹高斯过程代理集成，以及基于零-shot CLAMP 的批评者，以在有限 oracle 预算下引导遗传算法进行样本高效的分子优化，在 PMO-1K 任务上达到强劲的 Top-10 AUC。

ABSTRACT

We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.

研究动机与目标

在有限的 oracle 评估预算下解决样本高效的分子优化问题。
通过多指纹 GP 代理集成降低对指纹选择的敏感性。
利用文本-分子对齐的零-shot 批评者（CLAMP）来热启动并在无分数数据的情况下指导候选排序。
在 1,000 次评估的 Practical Molecular Optimization (PMO) 基准（PMO-1K）上展示有效性。

提出的方法

使用基于 GA 的分子优化器，在 oracle 评估前用多位批评者对候选人进行预排序。
构建一个覆盖六种指纹类型（ECFP、FCFP、Avalon、Pharmacophore、MAP、BoC）的高斯过程代理集合，使用 Ta nimoto 内核。
加入一个零-shot CLAMP 批评者，通过文本–分子嵌入与任务描述的相似性对分子进行评分。
以概率方式选择批评者，并在新 oracle 数据到来时在线更新选择权重。
使用 CLAMP 或任一 GP 代理对候选进行预评估和排序，然后对顶部批次执行 oracle 评估。
候选通过 BiG（Graph GA）或受 LLM 指导的编辑（Mol LIBRA-L）组件生成。

实验结果

研究问题

RQ1多指针 GP 代理集成能否在低预算分子优化中降低对指纹选择的性能敏感性？
RQ2在获得足够带标签数据之前，整合零-shot 文本–分子批评者（CLAMP）是否改善早期排序和样本效率？
RQ3与最先进基线相比，Mol LIBRA 在 PMO-1K 基准上的表现如何？
RQ4模型权重与批评者选择对整体优化性能的贡献为何？
RQ5将 GA 生成与语言模型辅助编辑（Mol LIBRA-L）结合是否带来性能提升？

主要发现

	Graph GA	REINVENT	LICO	Genetic GFN	Mol LEO	Tripp’s GP BO	Mol LIBRA-G	Mol LIBRA-L
Sum	10.901	10.673	11.714	11.559	11.665	12.569	13.376	14.208

Mol LIBRA 的变体在 PMO-1K 上表现出色，Mol LIBRA-L 在所有任务中获得最佳的总体 Top-10 AUC 总和。
多指纹 GP 代理集合降低对指纹选择的敏感性，在预算约束下提升鲁棒性。
将 CLAMP 作为零-shot 批评者引入，提供有价值的早期排序信号，当带标签数据稀缺时改善预评估决策。
Mol LIBRA-L（基于语言模型的候选生成）在多数 PMO-1K 任务上优于若干基线，在表 1 的 22 个任务中排名前列共 14/22。
消融研究显示多指纹代理和 CLAMP 对整体性能提升的贡献（Mol LIBRA-G 与 Mol LIBRA-L）。
相比 Tripp 的 GP BO 和基于 LLM 的基线，Mol LIBRA 变体在 1,000 次评估预算下持续表现出竞争力或优越性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。