Skip to main content
QUICK REVIEW

[논문 리뷰] Genetic algorithms are strong baselines for molecule generation

Austin Tripp, José Miguel Hernández-Lobato|arXiv (Cornell University)|2023. 10. 13.
Computational Drug Discovery Methods인용 수 11
한 줄 요약

유전 알고리즘은 분자 생성에서 강건하게 성능을 내며 종종 복잡한 ML 방법을 능가한다. 본 논문은 새로운 방법이 GA에 비해 우위를 보여야 한다는 GA 기준을 제안한다.

ABSTRACT

Generating molecules, both in a directed and undirected fashion, is a huge part of the drug discovery pipeline. Genetic algorithms (GAs) generate molecules by randomly modifying known molecules. In this paper we show that GAs are very strong algorithms for such tasks, outperforming many complicated machine learning methods: a result which many researchers may find surprising. We therefore propose insisting during peer review that new algorithms must have some clear advantage over GAs, which we call the GA criterion. Ultimately our work suggests that a lot of research in molecule generation should be re-assessed.

연구 동기 및 목표

  • 유전 알고리즘(GAs)이 분자 생성을 위한 강력한 baseline임을 보여준다.
  • 무조건적 생성 및 단일 목적 최적화에서 GA 성능을 최첨단 딥러닝 방법과 비교한다.
  • 새로운 분자 생성 방법이 GA보다 우위를 보여야 한다는 GA 기준을 채택하도록 촉진한다.

제안 방법

  • 실험에 사용된 기본 mol_ga GA 구성 설명.
  • 개체군에서 고성능 개체를 선택하기 위해 분위수 기반 샘플링을 사용한다.
  • GuacaMol 프레임워크 내에서 Jensen(2019)에 기반한 돌연변이 및 교차 연산을 적용한다.
  • 상위 점수를 가진 분자를 그리드로 선택해 새로운 개체군을 구성한다.
  • 무조건적 생성 벤치마크와 PMO 분자 최적화 벤치마크 전반에서 평가한다.

실험 결과

연구 질문

  • RQ1무조건적 분자 생성 작업에서 유전 알고리즘이 더 복잡한 ML 방법의 성능과 같거나 이를 능가하는가?
  • RQ2실무적 평가 예산 하에서 단일 목적 분자 최적화 벤치마크에서 GA가 경쟁력 있는가?
  • RQ3피어 리뷰 과정에서 새로운 분자 생성 방법이 GA에 대한 우위를 보여야 한다(GA 기준)?
  • RQ4일부 최신 방법이 왜 일관되게 GA를 능가하지 못하는지에 대한 설명은 무엇인가?

주요 결과

MethodPaperValidityNovelty@10kUniqueness
JT-VAEJin et al., 201899.8%100%100%
GCPNYou et al., 2018100%100%99.97%
MolecularRNNPopova et al., 2019100%100%99.89%
Graph NVPMadhawa et al., 2019100%100%94.80%
Graph AFShi* et al., 2020100%100%99.10%
MoFlowZang and Wang, 2020100%100%99.99%
GraphCNFLippe and Gavves, 202096.35%99.98%99.98%
Graph DFLuo et al., 2021100%100%99.16%
ModFlowVerma et al., 202298.1%100%99.3%
GraphEBMLiu et al., 202199.96%100%98.79%
AddCarbonRenz et al., 2019100%99.94%99.86%
mol_ga99.76%99.94%98.60%
  • GA는 무조건적 분자 생성 벤치마크에서 복잡한 여러 방법과 최소한 동등한 성능을 보이며 벤치마크 표에 항상 포착되지 않는 속도상의 이점을 보여준다.
  • ZINC 250k의 무조건적 분자 생성에서 많은 방법이 거의 100%의 타당성, 참신성, 고유성을 달성하는 반면 mol_ga는 경쟁력 있고 종종 더 빠른 기준점을 제시한다.
  • PMO 벤치마크에서 10,000 평가 예산으로 Mol_ga가 이전 연구의 최강 GA를 능가하며, 저자들의 실험에서도 Gao et al.(2022)가 보고한 모든 방법을 능가한다.
  • 이 논문은 많은 현대 방법들이 주로 학습 데이터의 변형을 생성할 수 있다고 주장하고 GA를 초과하는 실제 진정한 발전을 보장하기 위해 GA 기준의 채택을 촉구한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.