[論文レビュー] SMILES2Vec: An Interpretable General-Purpose Deep Neural Network for Predicting Chemical Properties
SMILES2Vec は SMILES 文字列上で深層 RNN を訓練し、工学的特徴量なしで多様な化学特性を予測し、最先端の成果を達成するとともに、重要な SMILES 文字の局所化を解釈可能に提供します。
Chemical databases store information in text representations, and the SMILES format is a universal standard used in many cheminformatics software. Encoded in each SMILES string is structural information that can be used to predict complex chemical properties. In this work, we develop SMILES2vec, a deep RNN that automatically learns features from SMILES to predict chemical properties, without the need for additional explicit feature engineering. Using Bayesian optimization methods to tune the network architecture, we show that an optimized SMILES2vec model can serve as a general-purpose neural network for predicting distinct chemical properties including toxicity, activity, solubility and solvation energy, while also outperforming contemporary MLP neural networks that uses engineered features. Furthermore, we demonstrate proof-of-concept of interpretability by developing an explanation mask that localizes on the most important characters used in making a prediction. When tested on the solubility dataset, it identified specific parts of a chemical that is consistent with established first-principles knowledge with an accuracy of 88%. Our work demonstrates that neural networks can learn technically accurate chemical concept and provide state-of-the-art accuracy, making interpretable deep neural networks a useful tool of relevance to the chemical industry.
研究の動機と目的
- SMILES 文字列から汎用的で特徴量設計不要の予測が必要であることを動機づける。
- SMILES から直接表現を学習して複数の性質を予測する深い RNN(SMILES2Vec)を開発する。
- SMILES2Vec が従来の特徴量を用いた MLP モデルよりもいくつかのタスクで優れていることを示す。
- 重要な SMILES 文字を強調する説明マスクを介して解釈性を示す。
提案手法
- SMILES シーケンス上で深い RNN を訓練し、特徴表現を自動的に学習させる。
- ベイズ最適化を用いてネットワークアーキテクチャとハイパーパラメータを調整する。
- 毒性、活性、溶解度、溶媒和など、多様な性質を評価する。
- 工学的記述子を用いた従来の MLP と性能を比較する。
- 予測に影響を与える SMILES 文字を局在化する説明マスクを提供する。
実験結果
リサーチクエスチョン
- RQ1単一の SMILES ベースの深層ニューラルネットワークは、多様な化学特性に対する汎用的な予測器として機能できるだろうか?
- RQ2SMILES 由来の表現は、精度と頑健性の点で特徴量設計済みのニューラルネットワークを上回るだろうか?
- RQ3予測のための重要な SMILES 文字の局在化を通じて解釈可能性を示すことができるか?
主な発見
- SMILES2Vec は複数の化学特性を予測するための汎用ニューラルネットワークとして機能する。
- 最適化された SMILES2Vec モデルは、工学的特徴を使用する現代的なMLPを上回る。
- 解釈可能性マスクは、予測に最も影響を及ぼす SMILES 文字を局在化する。
- 溶解度データセットでは、モデルは 88% の精度を達成し、既存の化学知識と一致している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。