[論文レビュー] ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity?
この論文は生成分子の内部化学的多様性を測定する指標を定義し、D2活性とdruglikenessに対する RL と ORGAN モデルを検証した結果、どちらのアプローチも標的特性に対して自然な多様性を再現できないことを示している。
Generating molecules with desired chemical properties is important for drug discovery. The use of generative neural networks is promising for this task. However, from visual inspection, it often appears that generated samples lack diversity. In this paper, we quantify this internal chemical diversity, and we raise the following challenge: can a nontrivial AI model reproduce natural chemical diversity for desired molecules? To illustrate this question, we consider two generative models: a Reinforcement Learning model and the recently introduced ORGAN. Both fail at this challenge. We hope this challenge will stimulate research in this direction.
研究の動機と目的
- 生成された分子の内部化学多様性をTanimotoベースの指標で定量化する。
- 非自明な生成モデルは特定の特性について自然な多様性を再現できるかという課題を提起する。
- 2つの化学特性:D2活性と薬物様性について、reinforcement learning と ORGAN アプローチを比較する。
- 生成されたサブセットが特性を満たす場合、自然分子と同程度の多様性を保持するか評価する。
提案手法
- 内部多様性 I(A) を分子集合 A の全ペア間の平均 Tanimoto 距離として定義する。
- Morgan fingerprints と RDKit を用いて Tanimoto 類似度と距離を計算する。
- 2つの生成パラダイムを評価する:LSTM ジェネレータを用いた Reinforcement Learning (RL) で活性または薬物様性を報酬とする;Discriminator REST (Dφ) を追加し混合報酬を λ で調整した ORGAN。
- MLP 前段モデルを ZINC のランダムサブセット(15k)で学習し、その後追加エポックの RL または ORGAN でファインチューニングする。
- ORGAN では判別器の出力とタスク固有の報酬を R(Y1:T)=λDφ(Y1:T)+(1−λ)P/activity または L(Y1:T) によって混合する。
- Prop. Valid SMILES、Avg. Pa (activity probability)、Avg. internal diversity、および activity >0.8 または druglikeness >0.8 の割合と、それら高スコアサブセット内の内部多様性を計算する。
実験結果
リサーチクエスチョン
- RQ1非自明な生成モデルは、特定の化学特性に対して自然多様性と同等の出力内部多様性を達成できるか?
- RQ2RL および ORGAN は dopamine D2 活性または薬物様性を最適化したとき多様なサンプルを生成するか?
- RQ3特性の満足度を高める(例:P(active)>0.8、L>0.8)ほど内部多様性が必ずしも低下するのか?
- RQ4 ORGAN は target properties を達成しつつ多様性を維持する点で RL を上回ることができるか?
主な発見
- 30エポック後の RL はターゲット活性を高めるが、高活性サブセットの内部多様性が劇的に低下する。
- 60エポック後の RL はさらに活性が高くなるが、高活性集合の多様性は依然として非常に低い。
- λ=0.04 の ORGAN は 30 エポックで高活性サンプルの多様性を RL より改善するが、多様性は自然多様性の桁違いに低く、60 エポックで多様性は RL レベルへ低下。
- 薬物様性について、RL は 200 エポック後に高い妥当性を得るが高 L サブセットで多様性はゼロ、λ=0.8 の ORGAN は 200 エポック後に妥当性が高まり若干の多様性を示すが、高 L サンプルの自然多様性には大きく及ばない。
- 総じて、RL と ORGAN のいずれも target properties に対して自然な化学多様性を再現できず、ORGAN はわずかに優れるがやはり自然多様性からほど遠い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。