Skip to main content
QUICK REVIEW

[論文レビュー] CheMixNet: Mixed DNN Architectures for Predicting Chemical Properties using Multiple Molecular Representations

A.R. Paul, Dipendra Jha|arXiv (Cornell University)|Nov 14, 2018
Computational Drug Discovery Methods被引用数 28
ひとこと要約

CheMixNetは、化学的性質予測のため、SMILES配列とMACCS分子フィンガープrintを併用する新しい混合深層ニューラルネットワークアーキテクチャを導入した。6つのデータセットで最先端のモデルを上回り、230万件のサンプルを含むハーバード・クリーンエネルギー・プロジェクト(CEP)データセットでは0.24%のMAPEを達成した。これは、RNN/CNNによるシーケンスモデリングと、マルチインプットフレームワークにおけるベクトルベースの学習を統合することで実現された。

ABSTRACT

SMILES is a linear representation of chemical structures which encodes the connection table, and the stereochemistry of a molecule as a line of text with a grammar structure denoting atoms, bonds, rings and chains, and this information can be used to predict chemical properties. Molecular fingerprints are representations of chemical structures, successfully used in similarity search, clustering, classification, drug discovery, and virtual screening and are a standard and computationally efficient abstract representation where structural features are represented as a bit string. Both SMILES and molecular fingerprints are different representations for describing the structure of a molecule. There exist several predictive models for learning chemical properties based on either SMILES or molecular fingerprints. Here, our goal is to build predictive models that can leverage both these molecular representations. In this work, we present CheMixNet -- a set of neural networks for predicting chemical properties from a mixture of features learned from the two molecular representations -- SMILES as sequences and molecular fingerprints as vector inputs. We demonstrate the efficacy of CheMixNet architectures by evaluating on six different datasets. The proposed CheMixNet models not only outperforms the candidate neural architectures such as contemporary fully connected networks that uses molecular fingerprints and 1-D CNN and RNN models trained SMILES sequences, but also other state-of-the-art architectures such as Chemception and Molecular Graph Convolutions.

研究の動機と目的

  • データ駆動型の深層学習を用いて、材料発見のボトルネックを克服し、性質予測を加速すること。
  • SMILESのみまたはフィンガープリントのみの単一表現モデルが、補完的な構造的特徴とフィンガープリントベースの特徴を十分に捉えられないという限界を克服すること。
  • 逐次的(SMILES)およびベクトル的(フィンガープリント)な分子表現を統合した、統一された深層学習フレームワークを構築し、予測性能を向上させること。
  • 大規模および小規模なデータセットにおいて、分類および回帰の両方の化学的性質予測タスクにわたる一般化を実証すること。
  • 複数表現学習における分子性質予測の新しいベンチマークを確立し、コミュニティでの採用を促すためにオープンソース化すること。

提案手法

  • SMILESをシーケンシャルなテキストとして、MACCSフィンガープリントを固定長のビットベクトルとして処理する、マルチインプット・シングルアウトプット(MISO)の深層ニューラルネットワークアーキテクチャを採用する。
  • 1次元畳み込みおよび再帰的ニューラルネットワーク(CNN/RNN)を用いて、SMILES配列から階層的な特徴を抽出し、局所的および長距離の構造的パターンを捉える。
  • MACCSフィンガープリントに事前にエンジニアリングされた高レベルの特徴(構造断片やサブストラクチャ)を学習するために、全結合(FC)層を適用する。
  • 両方のストリームからの中間表現を連結することで統合し、最終的な回帰または分類ヘッドへと接続する。
  • CEP(230万件のサンプル)およびMoleculeNetベンチマークを含む、複数のデータセットで広範なハイパーパrameterチューニングを実施してアーキテクチャを最適化する。
  • 収束性と一般化性能を確保するため、標準的な深層学習トレーニングプロトコル(早期停止、学習率スケジューリングを含む)を採用する。

実験結果

リサーチクエスチョン

  • RQ1単一の深層学習モデル内でSMILES配列と分子フィンガープリントを統合することで、単一表現モデル(例:SMILESのみ、またはフィンガープリントのみ)に比べ、化学的性質の予測精度が向上するか?
  • RQ2異なる入力タイプ(シーケンス対ベクトル)に対して、異なるニューラルネットワークアーキテクチャ(例:CNN、RNN)を用いることで、特徴学習およびモデル性能が向上するか?
  • RQ3CheMixNetは、Chemception や ConvGraph などの最先端モデルと比較して、多様な化学的性質予測タスクでどのように性能を発揮するか?
  • RQ4混合入力アーキテクチャは、大規模データセットと小規模データセット、分類タスクと回帰タスクの両方において、どの程度一般化可能か?
  • RQ5混合表現による性能向上は、入力の多様性に起因するのか、それとも各表現を専用ネットワークで処理するアーキテクチャ設計に起因するのか?

主な発見

  • ハーバード・クリーンエネルギー・プロジェクト(CEP)データセットでは、CheMixNetが0.24%の平均絶対誤差率(MAPE)を達成し、CNN-RNNベースラインモデルの0.43%MAPEを大きく上回った。
  • MoleculeNetベンチマークでは、CheMixNetが全5つのデータセット(HIV、Tox21(分類)、FreeSolv、ESOL(回帰))で、Chemception、ConvGraph、全結合ネットワークを含むすべての比較モデルを上回った。
  • Tox21およびHIV分類タスクでは、FCモデルが既存モデルの中で最高の性能を示したが、CheMixNetの混合アーキテクチャ(例:CNN-RNN*FC)も、FCを除くすべてのモデルを上回り、優れた一般化性能を示した。
  • FreeSolvの両方のデータセットでは、CNN-RNN*FCバージョンが最良の性能を示した一方、ESOL回帰データセットではRNN*FCが他のモデルを上回り、異なる混合アーキテクチャがタスク固有の利点を示した。
  • CheMixNetは、単一表現モデル(例:SMILES上のRNN、フィンガープリント上のFC)を常に上回る性能を発揮し、複数表現からの共同学習が優れた結果をもたらすことを実証した。
  • モデルのアーキテクチャは、溶解度、毒性、バンドギャップなど、多様な化学的性質タイプにわたって一般化可能であり、材料科学およびドラッグディスカバリ分野への広範な応用可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。