Skip to main content
QUICK REVIEW

[論文レビュー] ATOM3D: Tasks On Molecules in Three Dimensions

Raphael J.L. Townshend, Martin Vögele|arXiv (Cornell University)|Jan 1, 2020
Machine Learning in Materials Science参考文献 64被引用数 16
ひとこと要約

ATOM3Dは、3次元分子機械学習のための包括的なベンチマークスイートとオープンソースツールキットを導入し、多様なバイオ分子タスクにおける3次元畳み込みニューラルネットワーク、グラフニューラルネットワーク、等長性ニューラルネットワークの評価を実施した。3次元表現は1次元/2次元手法を常に上回ることを示し、3DCNNは幾何学的特徴が強いタスクで優れた性能を発揮した。一方、等長性ネットワークは今後の発展に強く期待できる兆しなどを示した。

ABSTRACT

Computational methods that operate on three-dimensional molecular structure have the potential to solve important questions in biology and chemistry. In particular, deep neural networks have gained significant attention, but their widespread adoption in the biomolecular domain has been limited by a lack of either systematic performance benchmarks or a unified toolkit for interacting with molecular data. To address this, we present ATOM3D, a collection of both novel and existing benchmark datasets spanning several key classes of biomolecules. We implement several classes of three-dimensional molecular learning methods for each of these tasks and show that they consistently improve performance relative to methods based on one- and two-dimensional representations. The specific choice of architecture proves to be critical for performance, with three-dimensional convolutional networks excelling at tasks involving complex geometries, graph networks performing well on systems requiring detailed positional information, and the more recently developed equivariant networks showing significant promise. Our results indicate that many molecular problems stand to gain from three-dimensional molecular learning, and that there is potential for improvement on many tasks which remain underexplored. To lower the barrier to entry and facilitate further developments in the field, we also provide a comprehensive suite of tools for dataset processing, model training, and evaluation in our open-source atom3d Python package. All datasets are available for download from https://www.atom3d.ai .

研究の動機と目的

  • 生物学および化学分野における3次元分子機械学習のための体系的で標準化されたベンチマークとツールキットの不足に対処すること。
  • 原子レベルの幾何学的構造を用いて、バイオ分子タスクにおける3次元ディープラーニングモデルの統合的評価フレームワークを確立すること。
  • オープンソースツール、キュレートされたデータセット、3次元分子学習のベストプラクティスを提供することで、研究者による参入障壁を低減すること。
  • 多様な分子タスクにおいて、3次元学習アーキテクチャ(3DCNN、GNN、ENN)を1次元/2次元ベースラインと体系的に比較すること。
  • 特にタンパク質-リガンド結合と電子的性質予測において、3次元分子表現学習の主な課題と機会を特定すること。

提案手法

  • 構造生物学および医薬化学分野の3次元分子データセットをキュレート・処理し、タンパク質-リガンド結合、電子的性質、タンパク質-リガンドポーズランク付けを含む。
  • 主な3次元学習アーキテクチャ3つ(3次元畳み込みニューラルネットワーク(3DCNN)、幾何学的グラフニューラルネットワーク(GNN)、等長性ニューラルネットワーク(EN))を実装・評価した。
  • 原子中心の3次元座標と元素種別を用いたデータ表現を標準化し、多様なバイオ分子間で一貫した処理を可能にした。
  • 回転および平行移動不変性を高めるために、データオーグメンテーションと対称性を考慮した学習を適用した。
  • タスク間での公平な比較を可能にするために、標準化された指標(例:AUROC、RMSE、平均絶対誤差)を用いた。
  • すべてのデータセット、モデル、評価パイプラインをオープンソースのPythonパッケージatom3dに統合し、再現性と拡張性を確保した。

実験結果

リサーチクエスチョン

  • RQ13次元ディープラーニングモデルは、分子性質や相互作用予測において1次元および2次元ベースラインと比べてどのように性能を発揮するか?
  • RQ2タンパク質-リガンド結合や電子的性質予測といった異なる種類の3次元分子タスクにおいて、3DCNN、GNN、ENNのうちどのニューラルネットワークアーキテクチャが最も優れた性能を示すか?
  • RQ33次元原子的幾何学的構造を組み込むことで、タンパク質-リガンド結合親和定数予測や電子的性質推定といったタスクでどの程度性能が向上するか?
  • RQ4低相同性のタンパク質セットで学習し、別のタンパク質セットでテストした場合、3次元分子モデルの一般化性能はどの程度か?
  • RQ53次元分子表現学習における主な課題と機会は何か。また、標準化されたベンチマークとツールを用いてそれらをどのように克服できるか?

主な発見

  • 3次元表現は、1次元および2次元ベースラインと比較して、すべてのベンチマークタスクで一貫して性能向上を示した。特に、タンパク質構造ランク付け(PSR、RSR)といった幾何学的特徴が強いタスクでは3DCNNが最先端の結果を達成した。
  • 等長性ニューラルネットワーク(EN)は、リガンド効力予測(LEP)タスクで最高の性能を示し、AUROC 0.770を達成。3DCNN(0.681)およびGNN(0.663)のベースラインを顕著に上回った。
  • リガンド結合親和定数(LBA)タスクでは、3DCNNがRMSE 1.416を達成し、非3次元ベースラインのX-score(RMSE 1.565)を上回り、30%相同性スプリットでも優れた一般化性能を示した。
  • GNNは、リジッド接触予測(RES)など、正確な位置情報が求められるタスクで優れた性能を示し、0.451の精度を達成したが、幾何学的特徴が強いタスクでは3DCNNに及ばなかった。
  • 3DCNNモデルは、電子的性質予測(SMP)タスクで平均絶対誤差(MAE)0.052を達成し、3D GNN(0.137)および3D ENN(0.095)を大きく上回った。これは、タスクの種別に応じたアーキテクチャの感受性を示している。
  • atom3dツールキットにより、再現可能な学習と評価が可能となり、すべてのデータセットとモデルがwww.atom3d.aiで公開された。これにより、今後の3次元分子学習分野の研究が促進された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。