[論文レビュー] Genetic algorithms are strong baselines for molecule generation
遺伝的アルゴリズムは分子生成で堅牢で、しばしば複雑なML手法を凌駕する。論文はGA基準を提案。新手法はGAより有利を示すべき。
Generating molecules, both in a directed and undirected fashion, is a huge part of the drug discovery pipeline. Genetic algorithms (GAs) generate molecules by randomly modifying known molecules. In this paper we show that GAs are very strong algorithms for such tasks, outperforming many complicated machine learning methods: a result which many researchers may find surprising. We therefore propose insisting during peer review that new algorithms must have some clear advantage over GAs, which we call the GA criterion. Ultimately our work suggests that a lot of research in molecule generation should be re-assessed.
研究の動機と目的
- 遺伝的アルゴリズム(GAs)が分子生成タスクの強力なベースラインであることを示す。
- 無条件生成と単一目的最適化でGAの性能を最新の深層学習手法と比較する。
- 新しい分子生成手法がGAより有利を示すことを求めるGA基準の採用を提言する。
提案手法
- 実験で使用されたデフォルトの mol_ga GA 設定を説明する。
- 分布の高性能個体を選択するために分位点ベースのサンプリングを使用する。
- GuacaMol フレームワーク内で Jensen (2019) に基づく突然変異と交叉操作を適用する。
- 得点の高い分子を貪欲に選択して新しい集団を形成する。
- 無条件生成ベンチマークと PMO 分子最適化ベンチマークの両方を評価する。
実験結果
リサーチクエスチョン
- RQ1遺伝的アルゴリズムは無条件の分子生成タスクで、より複雑なML手法の性能を上回るか?
- RQ2実用的な評価予算の下で、GAsは単一目的分子最適化ベンチマークで競争力があるか?
- RQ3新しい分子生成手法は査読時にGAより有利を示すべきか(GA基準)?
- RQ4なぜいくつかの新しい手法は一貫してGAを上回らないのか、どのような説明があるか?
主な発見
| Method | Paper | Validity | Novelty@10k | Uniqueness |
|---|---|---|---|---|
| JT-VAE | Jin et al., 2018 | 99.8% | 100% | 100% |
| GCPN | You et al., 2018 | 100% | 100% | 99.97% |
| MolecularRNN | Popova et al., 2019 | 100% | 100% | 99.89% |
| Graph NVP | Madhawa et al., 2019 | 100% | 100% | 94.80% |
| Graph AF | Shi* et al., 2020 | 100% | 100% | 99.10% |
| MoFlow | Zang and Wang, 2020 | 100% | 100% | 99.99% |
| GraphCNF | Lippe and Gavves, 2020 | 96.35% | 99.98% | 99.98% |
| Graph DF | Luo et al., 2021 | 100% | 100% | 99.16% |
| ModFlow | Verma et al., 2022 | 98.1% | 100% | 99.3% |
| GraphEBM | Liu et al., 2021 | 99.96% | 100% | 98.79% |
| AddCarbon | Renz et al., 2019 | 100% | 99.94% | 99.86% |
| mol_ga | — | 99.76% | 99.94% | 98.60% |
- GAsは無条件の分子生成ベンチマークで多くの複雑な手法と少なくとも同等の性能を示し、ベンチマーク表に必ずしも表れていない速度上の利点を示す。
- ZINC 250k の無条件生成では、多くの手法が有効性・新規性・多様性がほぼ100%に達し、mol_gaは競争力のあるベースラインであり、しばしばより速い。
- Mol_gaはPMO ベンチマークで、分子最適化の評価予算が10,000で最高GAを上回り、著者の実験では Gao et al. (2022) が報告した全ての手法をも上回る。
- 論文は多くの現代的手法が訓練データのバリアントを主に生成する可能性があると主張し、GA基準の採用を促して真の進歩をGAを超えたものとして保証すべきとする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。