QUICK REVIEW

[논문 리뷰] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic

Masahi OKADA, Kazuki Sakai|arXiv (Cornell University)|2026. 01. 29.

Machine Learning in Materials Science인용 수 0

한 줄 요약

Mol LIBRA는 다중 지문 GP 대리모델 앙상블과 제로샷 CLAMP 기반 크리틱을 도입하여 샘플 예산이 빡빡한 상황에서 분자 최적화를 위한 유전 알고리즘(GA)을 안내하며 PMO-1K 과제에서 Top-10 AUC를 강하게 달성합니다.

ABSTRACT

We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.

연구 동기 및 목표

제한된 오라클 평가 예산 하에서 샘플 효율적 분자 최적화를 다룬다.
다중 지문 GP 대리모델 앙상블을 사용해 지문 선택에 대한 민감도를 줄인다.
scored 데이터 없이도 시작부터 후보의 순위를 높이고 가이드를 주기 위해 텍스트-분자 정렬 제로샷 크리틱(CLAMP)을 활용한다.
PMO-1K 벤치마크에서 1,000회 평가 하에서의 효율성을 입증한다.

제안 방법

오라클 평가 전에 여러 크리틱으로 후보를 사전 순위화하는 GA 기반 분자 최적화를 사용한다.
6가지 지문 유형(ECFP, FCFP, Avalon, Pharmacophore, MAP, BoC)으로 정의된 가우시안 프로스 surrogate 앙상블을 Tanimoto 커널과 함께 구축한다.
작업 설명과의 텍스트-분자 임베딩 유사도에 기반해 분자를 점수화하는 제로샷 CLAMP 크리틱을 도입한다.
새로운 오라클 데이터가 도착함에 따라 확률적으로 크리틱을 선택하고 선택 가중치를 온라인으로 업데이트한다.
CLAMP 또는 GP 대리모델 중 하나를 사용해 후보를 사전 평가하고 순위를 매긴 다음 상위 배치에서 오라클 평가를 수행한다.
후보는 BiG(Graph GA) 또는 LLM-가이드 편집(Mol LIBRA-L) 구성요소를 통해 생성된다.

실험 결과

연구 질문

RQ1다중 지문 GP 대리모델 앙상블이 낮은 예산의 분자 최적화에서 지문 선택에 대한 성능 민감도를 줄일 수 있는가?
RQ2제로샷 텍스트-분자 크리틱(CLAMP)을 통합하면 충분한 레이블 데이터가 아직 없을 때도 초기 순위 결정 및 샘플 효율성을 개선하는가?
RQ3Mol LIBRA가 PMO-1K 벤치마크에서 최첨단 베이스라인과 비교해 어떤 성능을 보이나?
RQ4모델 가중치 부여와 크리틱 선택이 전체 최적화 성능에 어떤 기여를 하는가?
RQ5GA 기반 생성과 언어 모델 보조 편집(Mol LIBRA-L)의 결합이 성능 향상을 가져오는가?

주요 결과

	그래프 GA	REINVENT	LICO	Genetic GFN	Mol LEO	Tripp의 GP BO	Mol LIBRA-G	Mol LIBRA-L
Sum	10.901	10.673	11.714	11.559	11.665	12.569	13.376	14.208

Mol LIBRA 변형은 PMO-1K에서 강력한 성능을 달성하며, Mol LIBRA-L이 태스크 전반에서 최상의 총합 Top-10 AUC를 얻는다.
다중 지문 GP 대리모델 앙상블은 지문 선택에 대한 민감도를 줄이고 예산 제약 하에서 강건함을 강화한다.
CLAMP를 제로샷 크리틱으로 도입하면 조기 순위 신호를 제공하여 점수 데이터가 부족할 때도 사전 평가 결정이 향상된다.
Mol LIBRA-L(언어 모델 기반 후보 생성)은 PMO-1K 과제의 다수에서 여러 베이스라인을 능가하며 표 1의 22개 과제 중 14개에서 상위를 차지한다.
애블레이션 연구는 다중 지문 대리모델과 CLAMP의 기여를 전반적 성능 향상에 기여함을 보여준다(Mol LIBRA-G와 Mol LIBRA-L).
Tripp의 GP BO 및 LLM 기반 베이스라인과 비교할 때 Mol LIBRA 변형은 1,000 평가 예산에서 일관되게 경쟁력 있거나 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.