Skip to main content
QUICK REVIEW

[論文レビュー] Structure-aware generation of drug-like molecules

Pavol Drotár, Arian R. Jamasb|arXiv (Cornell University)|Nov 7, 2021
Computational Drug Discovery Methods被引用数 13
ひとこと要約

本論文では、結晶構造データをガイドとして用い、離散化された内部座標を用いてタンパク質のくぼみ内に分子グラフと3D配置を同時に生成する教師あり生成モデルを提案する。幾何学的深層学習(SchNet)と反復的・構造に配慮した原子単位での段階的生成を統合することで、ベースラインと比較して予測された結合親和定数が8%向上し、医薬性(drug-likeness)が10%向上した。生成された分子はドッキングスコアにおいて既知のリガンドを上回った。

ABSTRACT

Structure-based drug design involves finding ligand molecules that exhibit structural and chemical complementarity to protein pockets. Deep generative methods have shown promise in proposing novel molecules from scratch (de-novo design), avoiding exhaustive virtual screening of chemical space. Most generative de-novo models fail to incorporate detailed ligand-protein interactions and 3D pocket structures. We propose a novel supervised model that generates molecular graphs jointly with 3D pose in a discretised molecular space. Molecules are built atom-by-atom inside pockets, guided by structural information from crystallographic data. We evaluate our model using a docking benchmark and find that guided generation improves predicted binding affinities by 8% and drug-likeness scores by 10% over the baseline. Furthermore, our model proposes molecules with binding scores exceeding some known ligands, which could be useful in future wet-lab studies.

研究の動機と目的

  • 既存の生成モデルが詳細な3Dタンパク質-リガンド相互作用およびくぼみの幾何構造を組み込むことの制限を解決すること。
  • 原子単位で段階的に生成し、分子グラフと3D配置を同時に予測する教師あり手法を開発すること。
  • 結晶構造データセットからの高分解能構造データを活用して、de novoリガンド設計における結合親和定数と医薬性を向上させること。
  • 実際の設計課題を反映する包括的なドッキングベンチマークを用いてモデルを評価すること。

提案手法

  • 生成は、学習された潜在表現に条件づけられた順序付き変分的グラフオートエンコーダを用い、原子単位で段階的に実行する。
  • 3D座標空間の縮小と幾何的一致性の確保のため、離散化された内部座標(結合長、角度、二面角)を採用する。
  • SchNetによる幾何的深層学習でリガンドおよびタンパク質の3D構造情報を符号化し、各生成段階で相互作用特徴を更新する。
  • 訓練の安定化と妥当なValency制約の確保のため、幅優先探索のノード追加順序を用いて教師強制(teacher forcing)を適用する。
  • 多頭注釈(multi-head attention)と局所的およびグローバルな構造的文脈を符号化する学習済み特徴ベクトルを用いて、原子種別、結合、3D座標を同時に予測する。
  • 生成された分子はRDKitで最適化され、ドッキングベンチマークを用いて結合親和定数、医薬性(QED)、合成可能性(SAS)を評価する。

実験結果

リサーチクエスチョン

  • RQ1分子グラフと3D配置の共同生成は、標準的な生成モデルと比較してde novo薬物設計における結合親和定数予測を改善できるか?
  • RQ2結晶構造データから得られる高分解能3Dくぼみ構造を組み込むことで、生成リガンドの質はどのように向上するか?
  • RQ3構造に配慮した生成は、ガイドなしまたはリガンドベースのベースラインと比較して、より優れた医薬性と結合親和定数を持つ分子を生成できるか?
  • RQ4生成された分子における一般的な構造的欠陥は何か?それらはドッキング性能にどのように影響するか?

主な発見

  • ガイド付き生成モデルは、ガイドなしベースラインと比較して、予測された結合親和定数を8%向上させ、医薬性(QED)を10%向上させた。
  • 生成された分子の上位10%は、PDBデータセット内の元のリガンドよりも低い(より良い)ドッキングスコアを達成した。特に小分子設計タスクにおいて顕著であった。
  • マルチリガンド設計において、ガイド付きモデルは-4.41 kcal/molのドッキングスコアを達成し、ガイドなしモデルの-4.15 kcal/molを上回った。
  • モデルは、一部の既知のリガンドを上回る結合親和定数を持つ分子を成功裏に生成し、実験的後続検討への応用可能性を示した。
  • 一般的な問題として、誤った環閉鎖やねじれ構造が見られ、これらはドッキングスコアに悪影響を与え、Vinardoアルゴリズムでもペナルティが科された。
  • モデルはMolGymの単一およびマルチバッグ座標生成タスクにおいて強く性能を発揮したが、特に小分子および直線鎖に対して顕著であった。一方、環閉鎖は依然として課題であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。