QUICK REVIEW

[論文レビュー] We Should at Least Be Able to Design Molecules That Dock Well

Tobiasz Ciepliński, Tomasz Danel|arXiv (Cornell University)|Jun 20, 2020

Computational Drug Discovery Methods参考文献 24被引用数 31

ひとこと要約

この論文は、SMINAスコアを用いて生成分子を評価するde novo薬物設計のためのドッキングベースのベンチマークを提案し、現行のグラフベースモデルは現実的なサイズの訓練データセットでトップのベンチマークを超えるのに苦戦している。

ABSTRACT

Designing compounds with desired properties is a key element of the drug discovery process. However, measuring progress in the field has been challenging due to the lack of realistic retrospective benchmarks, and the large cost of prospective validation. To close this gap, we propose a benchmark based on docking, a popular computational method for assessing molecule binding to a protein. Concretely, the goal is to generate drug-like molecules that are scored highly by SMINA, a popular docking software. We observe that popular graph-based generative models fail to generate molecules with a high docking score when trained using a realistically sized training set. This suggests a limitation of the current incarnation of models for de novo drug design. Finally, we propose a simplified version of the benchmark based on a simpler scoring function, and show that the tested models are able to partially solve it. We release the benchmark as an easy to use package available at https://github.com/cieplinski-tobiasz/smina-docking-benchmark. We hope that our benchmark will serve as a stepping stone towards the goal of automatically generating promising drug candidates.

研究の動機と目的

単純な代理特性を超えた現実的なベンチマークの必要性を、de novo薬物設計で動機づける。
生成分子をSMINAのドッキングポーズでスコアリングするドッキングベースのベンチマークを導入する。
このベンチマークで人気の生成モデルを評価し、現在の限界を特定する。
再現性と将来の改良のために、アクセス可能なベンチマークとコードを公開する。

提案手法

生成分子をSMINAでターゲット結合部位へドックするドッキングベースのベンチマークを定義する。
SMINAのデフォルトスコアリング関数とその成分でポーズをスコアリングする。
ChEMBLターゲット（5-HT1B、5-HT2B、ACM2、CYP2D6）から訓練データを表現し、Lipinski規則でフィルタリングする。
ZINCベースの類似閾値（ECFP2、1024ビット）を用いて訓練データと類似の化合物を除去することで新規性を評価する。
ベースライン（ZINCサブセット）と3つのモデル（CVAE、GVAE、REINVENT）を、3つのタスク（Docking Score Function、Repulsion、Hydrogen Bonding）で比較する。
ECFP指紋の平均タンーミョ距離で多様性を評価し、生成分子の扱いやすさを分析する。

実験結果

リサーチクエスチョン

RQ1現実的なドッキングベンチマークで高いドッキングスコアを達成する分子を現行のde novo薬物設計モデルは生成できるか？
RQ2現実的な訓練データセットサイズ（千件規模）は、人気の生成モデルが既知のリガンドのトップスコアを上回る能力を制限するか？
RQ3SMINAのスコアリング関数内の異なる目的ターゲットは、分子生成と多様性にどう影響するか？
RQ4生成セットにおけるドッキングスコアの最適化と化学的多様性や薬物様性との間に顕著なトレードオフがあるか？
RQ5効果的なde novoドッキング最適化のためのモデルデータ要件についてどのような洞察が得られるか？

主な発見

CVAEとGVAEは、Docking Score Functionタスクで一般的に平均ZINCドッキングスコアを上回れない。
REINVENTは平均ZINCスコアおよび訓練データよりも良いドッキングスコアを達成するが、通常はZINCスコアの上位10%を超えない。
生成分子は訓練データより多様性が低い傾向があり、REINVENTはタスク全体で特に多様性が低い。
SMINAの単一項（例：水素結合）に対する最適化は、全体のドッキングスコアを最適化するより実現しやすく、目的ごとに難易度が異なることを示唆する。
訓練サイズが1,000を超えても、生成分子のトップドッキングスコアがZINCの最高分子を稀にしか上回らず、データ要件を強調している。
ベンチマークは、最適化目的に紐づく生成分子の構造モチーフと傾向を明らかにする（例：ドッキングスコアにはマクロ環、反発には小分子）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。