QUICK REVIEW

[論文レビュー] Synergy Effect between Convolutional Neural Networks and the Multiplicity of SMILES for Improvement of Molecular Prediction

Talia B. Kimber, Sebastian Engelke|arXiv (Cornell University)|Dec 11, 2018

Machine Learning in Materials Science参考文献 6被引用数 42

ひとこと要約

本論文は CNF（Convolutional Neural Fingerprint）モデルを紹介します。SMILES 表現にCNNを適用し、データ拡張のためのSMILES 多重性を活用して、従来のデスクリプタと競合する精度を達成し、特に小さなデータセットで結果を改善することが多いです。

ABSTRACT

In our study, we demonstrate the synergy effect between convolutional neural networks and the multiplicity of SMILES. The model we propose, the so-called Convolutional Neural Fingerprint (CNF) model, reaches the accuracy of traditional descriptors such as Dragon (Mauri et al. [22]), RDKit (Landrum [18]), CDK2 (Willighagen et al. [43]) and PyDescriptor (Masand and Rastija [20]). Moreover the CNF model generally performs better than highly fine-tuned traditional descriptors, especially on small data sets, which is of great interest for the chemical field where data sets are generally small due to experimental costs, the availability of molecules or accessibility to private databases. We evaluate the CNF model along with SMILES augmentation during both training and testing. To the best of our knowledge, this is the first time that such a methodology is presented. We show that using the multiplicity of SMILES during training acts as a regulariser and therefore avoids overfitting and can be seen as ensemble learning when considered for testing.

研究の動機と目的

分子予測のための畳み込みニューラルネットワークと複数のSMILES表現の相乗効果を実証する。
SMILESの多重性がCNFモデルのデータ拡張正則化として機能することを示す。
CNFの性能を従来のデスクリプタや他のニューラルモデルと、回帰および分類タスク全体で比較する。

提案手法

SMILESをCNN層で処理されるワンホットエンコード文字列として表現し、ニューラルフィンガープリントを生成する。
ResNetおよびニューラルフィンガープリントの概念に触発されたフラットおよび階層的なCNNアーキテクチャの両方を取り入れる。
畳み込み後のハッシュ化を用いて局所感度埋め込みを作成し、それを密な特徴量にハッシュする。
トレーニングとテスト中にSMILES拡張を適用し、データ拡張とアンサンブル効果を生み出す。

実験結果

リサーチクエスチョン

RQ1CNNベースのSMILES特徴抽出はQSAR/QSPRタスクにおいて従来の分子デスクリプタに対抗できるか？
RQ2トレーニングおよびテスト時にSMILES多重性を増やすと、canonical SMILES のみを使用する場合と比べて予測性能が向上するか？
RQ3データセットサイズの異なる回帰および分類タスクでCNFの性能はどう変化するか？

主な発見

ターゲット	サイズ	拡張	RMSE/AUC
MP	9104	1/1	45.6
MP	9104	10/1	42.8
MP	9104	1/10	96.2
MP	9104	10/10	39.2
MP	9104	10/25	39.0
BP	1893	1/1	25.0
BP	1893	10/1	20.7
BP	1893	1/10	61.2
BP	1893	10/10	18.6
BP	1893	10/25	18.6
BCF	378	1/1	0.78
BCF	378	10/1	0.71
BCF	378	1/10	1.20
BCF	378	10/10	0.65
BCF	378	10/25	0.65
FreeSolv	642	1/1	1.42
FreeSolv	642	10/1	1.40
FreeSolv	642	1/10	2.30
FreeSolv	642	10/10	1.14
FreeSolv	642	10/25	1.11
LogS	311	1/1	0.78
LogS	311	10/1	0.67
LogS	311	1/10	2.16
LogS	311	10/10	0.62
LogS	311	10/25	0.62
Lipo	200	1/1	0.81
Lipo	200	10/1	0.76
Lipo	200	1/10	1.21
Lipo	200	10/10	0.67
Lipo	200	10/25	0.68
BACE	513	1/1	0.98
BACE	513	10/1	0.78
BACE	513	1/10	1.32
BACE	513	10/10	0.71
BACE	513	10/25	0.71
DHFR	739	1/1	0.78
DHFR	739	10/1	0.76
DHFR	739	1/10	1.32
DHFR	739	10/10	0.70
DHFR	739	10/25	0.71
LEL	483	1/1	1.0
LEL	483	10/1	1.0
LEL	483	1/10	1.1
LEL	483	10/10	1.0
LEL	10/25	10/25	1.0
Target	Model	Performance (AUC)
HIV	1127	CNF	0.79
HIV	1127	KernelSVM	0.792
AMES	542	CNF	0.87
AMES	542	Deepchem	NA
BACE	513	CNF	0.88
BACE	513	RF	0.867
Clintox	478	CNF	0.73
Clintox	478	Weave	0.832
Tox21	831	CNF	0.84
Tox21	831	ConvGraph	0.829
BBBP	2039	CNF	0.92
BBBP	2039	KernelSVM	0.729
JAK3	886	CNF	0.78

SMILES 拡張を用いたCNFは、Dragon、RDKit、CDK2、PyDescriptor などの従来のデスクリプタと同等以上の性能を示すことが多い。
トレーニング時のSMILES拡張は予測性能を大幅に向上させ、データ拡張の利点と一致する。
テスト時の拡張のみでは通常性能が低下する。先行曝露なしで非標準的なSMILESをマッピングするのが難しいことを示唆。
トレーニングとテストの両方でSMILES拡張を行うと、データ拡張とアンサンブル効果の双方を得られ、最良の結果を示す。
CNFは回帰および分類タスクのいくつかのターゲットで、DeepChemの最先端モデルと同等またはそれ以上の性能を示すことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。