[論文レビュー] Synergy Effect between Convolutional Neural Networks and the Multiplicity of SMILES for Improvement of Molecular Prediction
本論文は CNF(Convolutional Neural Fingerprint)モデルを紹介します。SMILES 表現にCNNを適用し、データ拡張のためのSMILES 多重性を活用して、従来のデスクリプタと競合する精度を達成し、特に小さなデータセットで結果を改善することが多いです。
In our study, we demonstrate the synergy effect between convolutional neural networks and the multiplicity of SMILES. The model we propose, the so-called Convolutional Neural Fingerprint (CNF) model, reaches the accuracy of traditional descriptors such as Dragon (Mauri et al. [22]), RDKit (Landrum [18]), CDK2 (Willighagen et al. [43]) and PyDescriptor (Masand and Rastija [20]). Moreover the CNF model generally performs better than highly fine-tuned traditional descriptors, especially on small data sets, which is of great interest for the chemical field where data sets are generally small due to experimental costs, the availability of molecules or accessibility to private databases. We evaluate the CNF model along with SMILES augmentation during both training and testing. To the best of our knowledge, this is the first time that such a methodology is presented. We show that using the multiplicity of SMILES during training acts as a regulariser and therefore avoids overfitting and can be seen as ensemble learning when considered for testing.
研究の動機と目的
- 分子予測のための畳み込みニューラルネットワークと複数のSMILES表現の相乗効果を実証する。
- SMILESの多重性がCNFモデルのデータ拡張正則化として機能することを示す。
- CNFの性能を従来のデスクリプタや他のニューラルモデルと、回帰および分類タスク全体で比較する。
提案手法
- SMILESをCNN層で処理されるワンホットエンコード文字列として表現し、ニューラルフィンガープリントを生成する。
- ResNetおよびニューラルフィンガープリントの概念に触発されたフラットおよび階層的なCNNアーキテクチャの両方を取り入れる。
- 畳み込み後のハッシュ化を用いて局所感度埋め込みを作成し、それを密な特徴量にハッシュする。
- トレーニングとテスト中にSMILES拡張を適用し、データ拡張とアンサンブル効果を生み出す。
実験結果
リサーチクエスチョン
- RQ1CNNベースのSMILES特徴抽出はQSAR/QSPRタスクにおいて従来の分子デスクリプタに対抗できるか?
- RQ2トレーニングおよびテスト時にSMILES多重性を増やすと、canonical SMILES のみを使用する場合と比べて予測性能が向上するか?
- RQ3データセットサイズの異なる回帰および分類タスクでCNFの性能はどう変化するか?
主な発見
| ターゲット | サイズ | 拡張 | RMSE/AUC |
|---|---|---|---|
| MP | 9104 | 1/1 | 45.6 |
| MP | 9104 | 10/1 | 42.8 |
| MP | 9104 | 1/10 | 96.2 |
| MP | 9104 | 10/10 | 39.2 |
| MP | 9104 | 10/25 | 39.0 |
| BP | 1893 | 1/1 | 25.0 |
| BP | 1893 | 10/1 | 20.7 |
| BP | 1893 | 1/10 | 61.2 |
| BP | 1893 | 10/10 | 18.6 |
| BP | 1893 | 10/25 | 18.6 |
| BCF | 378 | 1/1 | 0.78 |
| BCF | 378 | 10/1 | 0.71 |
| BCF | 378 | 1/10 | 1.20 |
| BCF | 378 | 10/10 | 0.65 |
| BCF | 378 | 10/25 | 0.65 |
| FreeSolv | 642 | 1/1 | 1.42 |
| FreeSolv | 642 | 10/1 | 1.40 |
| FreeSolv | 642 | 1/10 | 2.30 |
| FreeSolv | 642 | 10/10 | 1.14 |
| FreeSolv | 642 | 10/25 | 1.11 |
| LogS | 311 | 1/1 | 0.78 |
| LogS | 311 | 10/1 | 0.67 |
| LogS | 311 | 1/10 | 2.16 |
| LogS | 311 | 10/10 | 0.62 |
| LogS | 311 | 10/25 | 0.62 |
| Lipo | 200 | 1/1 | 0.81 |
| Lipo | 200 | 10/1 | 0.76 |
| Lipo | 200 | 1/10 | 1.21 |
| Lipo | 200 | 10/10 | 0.67 |
| Lipo | 200 | 10/25 | 0.68 |
| BACE | 513 | 1/1 | 0.98 |
| BACE | 513 | 10/1 | 0.78 |
| BACE | 513 | 1/10 | 1.32 |
| BACE | 513 | 10/10 | 0.71 |
| BACE | 513 | 10/25 | 0.71 |
| DHFR | 739 | 1/1 | 0.78 |
| DHFR | 739 | 10/1 | 0.76 |
| DHFR | 739 | 1/10 | 1.32 |
| DHFR | 739 | 10/10 | 0.70 |
| DHFR | 739 | 10/25 | 0.71 |
| LEL | 483 | 1/1 | 1.0 |
| LEL | 483 | 10/1 | 1.0 |
| LEL | 483 | 1/10 | 1.1 |
| LEL | 483 | 10/10 | 1.0 |
| LEL | 10/25 | 10/25 | 1.0 |
| Target | Model | Performance (AUC) | |
| HIV | 1127 | CNF | 0.79 |
| HIV | 1127 | KernelSVM | 0.792 |
| AMES | 542 | CNF | 0.87 |
| AMES | 542 | Deepchem | NA |
| BACE | 513 | CNF | 0.88 |
| BACE | 513 | RF | 0.867 |
| Clintox | 478 | CNF | 0.73 |
| Clintox | 478 | Weave | 0.832 |
| Tox21 | 831 | CNF | 0.84 |
| Tox21 | 831 | ConvGraph | 0.829 |
| BBBP | 2039 | CNF | 0.92 |
| BBBP | 2039 | KernelSVM | 0.729 |
| JAK3 | 886 | CNF | 0.78 |
- SMILES 拡張を用いたCNFは、Dragon、RDKit、CDK2、PyDescriptor などの従来のデスクリプタと同等以上の性能を示すことが多い。
- トレーニング時のSMILES拡張は予測性能を大幅に向上させ、データ拡張の利点と一致する。
- テスト時の拡張のみでは通常性能が低下する。先行曝露なしで非標準的なSMILESをマッピングするのが難しいことを示唆。
- トレーニングとテストの両方でSMILES拡張を行うと、データ拡張とアンサンブル効果の双方を得られ、最良の結果を示す。
- CNFは回帰および分類タスクのいくつかのターゲットで、DeepChemの最先端モデルと同等またはそれ以上の性能を示すことが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。