Skip to main content
QUICK REVIEW

[論文レビュー] Fr\\'echet ChemNet Distance: A metric for generative models for molecules in drug discovery

Kristina Preuer, Philipp Renz|arXiv (Cornell University)|Mar 26, 2018
Computational Drug Discovery Methods被引用数 5
ひとこと要約

本論文は、創薬分野における生成モデルの評価のための新しい指標であるFréchet ChemNet距離(FCD)を提案する。FCDは、薬物活性予測のための訓練を受けた深層ニューラルネットワークであるChemNetの直前層の活性化を活用する。FCDは、ChemNetの表現空間内における実分子と生成分子の分布間のFréchet距離を計算し、化学的妥当性、生物学的関連性、多様性を捉える。Seglerらのモデルのような生成モデルでは、FCD値が低く(例:1.62)実分子との分布的類似性が高く、ターゲット指向の生成におけるバイアスを検出でき、フィンガープrintベースのベースラインを上回る性能を示す。

ABSTRACT

The new wave of successful generative models in machine learning has increased the interest in deep learning driven de novo drug design. However, assessing the performance of such generative models is notoriously difficult. Metrics that are typically used to assess the performance of such generative models are the percentage of chemically valid molecules or the similarity to real molecules in terms of particular descriptors, such as the partition coefficient (logP) or druglikeness. However, method comparison is difficult because of the inconsistent use of evaluation metrics, the necessity for multiple metrics, and the fact that some of these measures can easily be tricked by simple rule-based systems. We propose a novel distance measure between two sets of molecules, called Fr\\'echet ChemNet distance (FCD), that can be used as an evaluation metric for generative models. The FCD is similar to a recently established performance metric for comparing image generation methods, the Fr\\'echet Inception Distance (FID). Whereas the FID uses one of the hidden layers of InceptionNet, the FCD utilizes the penultimate layer of a deep neural network called ChemNet, which was trained to predict drug activities. Thus, the FCD metric takes into account chemically and biologically relevant information about molecules, and also measures the diversity of the set via the distribution of generated molecules. The FCD's advantage over previous metrics is that it can detect if generated molecules are a) diverse and have similar b) chemical and c) biological properties as real molecules. We further provide an easy-to-use implementation that only requires the SMILES representation of the generated molecules as input to calculate the FCD. Implementations are available at: https://www.github.com/bioinf-jku/FCD

研究の動機と目的

  • 生成モデルのデ・ノボ創薬設計における一貫性があり統合的な評価指標の欠如に応えること。
  • 従来の指標の限界(例:logP やドラッグライクネスなどの単一記述子への依存、ルールベースの妥当性)を克服し、化学的および生物学的情報を統合すること。
  • 生成分子の多様性を捉えつつ、生物学的に意味のある表現空間内で実分子との類似性を測定できる指標を開発すること。
  • FCDが、DRD2 や PLK1 のような特定のタンパク質標的への過剰適合(オーバーフィット)といったバイアスを検出できるかどうかを評価すること。
  • 再現可能性と創薬分野研究への広範な採用を可能にする、実用的でオープンソースの実装を提供すること。

提案手法

  • FCDは、ChemNetの直前層から得られる分子表現の多次元正規分布間のFréchet距離を計算する。
  • 各分子は、薬物活性予測の訓練中に学習された化学的および生物学的特徴をエンコードするChemNetの隠れ層活性化によって埋め込まれる。
  • 実分子(pw)と生成分子(p)の両方の活性化分布の一次モーメント(平均)と二次モーメント(共分散)を、正規分布を仮定して計算する。
  • FCDは次の式で計算される:d² = ||m − mw||² + Tr(C + Cw − 2(C Cw)^1/2),ここでm, Cは生成分子の平均および共分散であり、mw, Cwは実分子のそれらである。
  • 生成分子のSMILES文字列にFCDを適用することで、系列ベースの生成モデルとの互換性を確保し、グラフベースのモデルからのSMILESへの変換も可能にする。
  • FCDは、表現に生物学的情報を組み込んだ場合の利点を評価するため、フィンガープrintベースのFréchet距離(FFD)と比較する。

実験結果

リサーチクエスチョン

  • RQ1FCDは、生成分子の化学的および生物学的関連性を同時に評価できる統一指標として機能するか?
  • RQ2FCDは、DRD2 や PLK1 のような特定タンパク質標的への過剰適合といった分布バイアスを検出できるか?
  • RQ3FCDは、logP やドラッグライクネス、SAスコアといった従来の指標と比較して、モデルの性能を包括的に捉えられるか?
  • RQ4ChemNetによる生物学的情報を組み込むことで、純粋に化学的表現に比べて指標の感度がどの程度向上するか?
  • RQ5FCDは、専門家の直感や先行研究と整合する形で生成モデルを信頼性高くランク付けできるか?

主な発見

  • Segler法のFCD値1.62は、実分子との強い分布的類似性を示しており、多様でドラッグライクな化合物を効果的に生成できることを確認している。
  • DRD2活性を最適化した手法(例:ORGAN, RL)は、顕著に高いFCD値(24.14~47.85)を示し、実分子の全分布から逸脱していることが示された。
  • ORGANおよびRLの訓練イテレーション数を増やすと、FCD値も上昇(例:ORGAN 60イテレーション vs. 30イテレーション)し、長時間の訓練が標的特異的分子へのバイアスを増大させ、多様性を低下させることを確認した。
  • ルールベースのシステムはFCDが58.76と最も高く、単純なシステムが実分子分布を近似できないことを強く示す基準として機能した。
  • FCDはPLK1キナーゼ阻害剤生成における生物学的バイアスを検出でき、全分子分布からの標的特異的逸脱を同定できる能力を示した。
  • FCDはフィンガープリントベースのFréchet距離(FFD)を上回り、ChemNet表現における生物学的情報が指標の感度と識別能を向上させることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。