Skip to main content
QUICK REVIEW

[논문 리뷰] MolLIBRA: Genetic Molecular Optimization with Multi-Fingerprint Surrogates and Text-Molecule Aligned Critic

Masahi OKADA, Kazuki Sakai|arXiv (Cornell University)|2026. 01. 29.
Machine Learning in Materials Science인용 수 0
한 줄 요약

Mol LIBRA는 다중 지문 GP 대리모델 앙상블과 제로샷 CLAMP 기반 크리틱을 도입하여 샘플 예산이 빡빡한 상황에서 분자 최적화를 위한 유전 알고리즘(GA)을 안내하며 PMO-1K 과제에서 Top-10 AUC를 강하게 달성합니다.

ABSTRACT

We study sample-efficient molecular optimization under a limited budget of oracle evaluations. We propose MolLIBRA (MultimOdaLity and Language Integrated Bayesian and evolutionaRy optimizAtion), a genetic algorithm based framework that pre-ranks candidate molecules using multiple critics before oracle calls: (i) an ensemble of Gaussian process (GP) surrogates defined over multiple molecular fingerprints and (ii) a pretrained text-molecule aligned encoder CLAMP. The GP ensemble enables adaptive selection of task-appropriate fingerprints, while CLAMP provides a zero-shot scoring signal from task descriptions by measuring the similarity between molecular and text embeddings. On the Practical Molecular Optimization (PMO) benchmark with a budget of 1,000 evaluations (PMO-1K), MolLIBRA-L, our variant with a language-model-based candidate generator, attains the best Top-10 AUC on 14/22 tasks and the highest overall sum of Top-10 AUC across tasks among prior methods.

연구 동기 및 목표

  • 제한된 오라클 평가 예산 하에서 샘플 효율적 분자 최적화를 다룬다.
  • 다중 지문 GP 대리모델 앙상블을 사용해 지문 선택에 대한 민감도를 줄인다.
  • scored 데이터 없이도 시작부터 후보의 순위를 높이고 가이드를 주기 위해 텍스트-분자 정렬 제로샷 크리틱(CLAMP)을 활용한다.
  • PMO-1K 벤치마크에서 1,000회 평가 하에서의 효율성을 입증한다.

제안 방법

  • 오라클 평가 전에 여러 크리틱으로 후보를 사전 순위화하는 GA 기반 분자 최적화를 사용한다.
  • 6가지 지문 유형(ECFP, FCFP, Avalon, Pharmacophore, MAP, BoC)으로 정의된 가우시안 프로스 surrogate 앙상블을 Tanimoto 커널과 함께 구축한다.
  • 작업 설명과의 텍스트-분자 임베딩 유사도에 기반해 분자를 점수화하는 제로샷 CLAMP 크리틱을 도입한다.
  • 새로운 오라클 데이터가 도착함에 따라 확률적으로 크리틱을 선택하고 선택 가중치를 온라인으로 업데이트한다.
  • CLAMP 또는 GP 대리모델 중 하나를 사용해 후보를 사전 평가하고 순위를 매긴 다음 상위 배치에서 오라클 평가를 수행한다.
  • 후보는 BiG(Graph GA) 또는 LLM-가이드 편집(Mol LIBRA-L) 구성요소를 통해 생성된다.

실험 결과

연구 질문

  • RQ1다중 지문 GP 대리모델 앙상블이 낮은 예산의 분자 최적화에서 지문 선택에 대한 성능 민감도를 줄일 수 있는가?
  • RQ2제로샷 텍스트-분자 크리틱(CLAMP)을 통합하면 충분한 레이블 데이터가 아직 없을 때도 초기 순위 결정 및 샘플 효율성을 개선하는가?
  • RQ3Mol LIBRA가 PMO-1K 벤치마크에서 최첨단 베이스라인과 비교해 어떤 성능을 보이나?
  • RQ4모델 가중치 부여와 크리틱 선택이 전체 최적화 성능에 어떤 기여를 하는가?
  • RQ5GA 기반 생성과 언어 모델 보조 편집(Mol LIBRA-L)의 결합이 성능 향상을 가져오는가?

주요 결과

그래프 GAREINVENTLICOGenetic GFNMol LEOTripp의 GP BOMol LIBRA-GMol LIBRA-L
Sum10.90110.67311.71411.55911.66512.56913.37614.208
  • Mol LIBRA 변형은 PMO-1K에서 강력한 성능을 달성하며, Mol LIBRA-L이 태스크 전반에서 최상의 총합 Top-10 AUC를 얻는다.
  • 다중 지문 GP 대리모델 앙상블은 지문 선택에 대한 민감도를 줄이고 예산 제약 하에서 강건함을 강화한다.
  • CLAMP를 제로샷 크리틱으로 도입하면 조기 순위 신호를 제공하여 점수 데이터가 부족할 때도 사전 평가 결정이 향상된다.
  • Mol LIBRA-L(언어 모델 기반 후보 생성)은 PMO-1K 과제의 다수에서 여러 베이스라인을 능가하며 표 1의 22개 과제 중 14개에서 상위를 차지한다.
  • 애블레이션 연구는 다중 지문 대리모델과 CLAMP의 기여를 전반적 성능 향상에 기여함을 보여준다(Mol LIBRA-G와 Mol LIBRA-L).
  • Tripp의 GP BO 및 LLM 기반 베이스라인과 비교할 때 Mol LIBRA 변형은 1,000 평가 예산에서 일관되게 경쟁력 있거나 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.