QUICK REVIEW

[論文レビュー] Efficient Evolutionary Search Over Chemical Space with Large Language Models

Haorui Wang, Marta Skreta|arXiv (Cornell University)|Jun 23, 2024

Evolutionary Algorithms and Applications被引用数 5

ひとこと要約

MOLLEO は化学知識を備えた大規模言語モデルを進化アルゴリズムのクロスオーバーおよび突然変異操作として統合し、分子最適化を加速させ、単一目的および多目的タスクの性能を向上させつつオラクル評価を削減します。

ABSTRACT

Molecular discovery, when formulated as an optimization problem, presents significant computational challenges because optimization objectives can be non-differentiable. Evolutionary Algorithms (EAs), often used to optimize black-box objectives in molecular discovery, traverse chemical space by performing random mutations and crossovers, leading to a large number of expensive objective evaluations. In this work, we ameliorate this shortcoming by incorporating chemistry-aware Large Language Models (LLMs) into EAs. Namely, we redesign crossover and mutation operations in EAs using LLMs trained on large corpora of chemical information. We perform extensive empirical studies on both commercial and open-source models on multiple tasks involving property optimization, molecular rediscovery, and structure-based drug design, demonstrating that the joint usage of LLMs with EAs yields superior performance over all baseline models across single- and multi-objective settings. We demonstrate that our algorithm improves both the quality of the final solution and convergence speed, thereby reducing the number of required objective evaluations. Our code is available at http://github.com/zoom-wang112358/MOLLEO

研究の動機と目的

高価なオラクル評価の下で高品質な分子の発見をより速く促進する。
進化オペレータに化学知識を注入するために大規模言語モデルを活用する。
単一目的最適化と多目的最適化の両方の設定で改善を示す。
構造ベースの薬物設計および分子の再発見タスクへの適用性を示す。

提案手法

初期分子プールを持つ Graph-GA の進化フレームワークに基づく。
標準的なクロスオーバーと突然変異を化学知識に基づく LLM オペレーター（GPT-4、BioT5、MoleculeSTM）に置換。
目的指示を記述したプロンプトを使用して、LLM によるクロスオーバーと突然変異の編集を誘導。
トップ分子に近い編集を優先する類似度ベースのフィルタ（Tanimoto 距離）を適用。
PMO および TDC ベンチマーク全体で固定オラクル予算を用いて評価し、ドッキングタスクを含む、指標として AUC および hypervolume を使用。
強力なベースライン（REINVENT、Augmented Memory、Graph-GA、GP-BO）に対して MOLLEO のバリアントを比較。

実験結果

リサーチクエスチョン

RQ1化学知識を備えた LLM が分子最適化の進化アルゴリズムにおける提案品質を改善できるか？
RQ2LLM 主導のクロスオーバーと突然変異は、高品質な解へ到達するために必要な高価な目的評価の回数を削減するか？
RQ3異なるオープンソースおよびクローズドソースの LLM（GPT-4、BioT5、MoleculeSTM）は、単一目的および多目的設定でどのように比較されるか？
RQ4構造ベースのドッキングおよび薬物発見タスクで、MOLLEO 手法は従来のベースラインを上回ることができるか？

主な発見

MOLLEO は 23 の単一目的タスクを通じて基準となる進化法を一貫して上回り、GPT-4 ベースの MOLLEO は多くの場合最高順位を達成する。
オープンソースの LLM（BioT5、MoleculeSTM）は Graph-GA に対して実質的な向上を提供するが、GPT-4 が最良の全体性能を頻繁に示す。
多目的タスクでは、GPT-4 を用いた MOLLEO バリアントは Graph-GA よりも高い hypervolume および総合 AUC を達成し、特に複雑な目的セットで顕著。
タンパク質-リガンドドッキングタスク（DRD3、EGFR、A2AR）全体で、 MOLLEO バリアントはベースラインより低いドッキングスコア（結合力が良い）とより速い収束を示し、オープンモデルの中では BioT5 が最も優れていることが多い。
MOLLEO は収束を加速し、高品質な分子候補へ到達するために必要なオラクル評価回数を削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。