QUICK REVIEW

[論文レビュー] SMILES Enumeration as Data Augmentation for Neural Network Modeling of Molecules

Esben Jannik Bjerrum|arXiv (Cornell University)|Mar 21, 2017

Computational Drug Discovery Methods参考文献 6被引用数 301

ひとこと要約

本論文は、非標準SMILESを列挙してLSTMベースのQSARモデルを訓練するデータ拡張を示し、予測性能を向上させ、分子ごとに列挙されたSMILES間での予測の平均化を可能にする。

ABSTRACT

Simplified Molecular Input Line Entry System (SMILES) is a single line text representation of a unique molecule. One molecule can however have multiple SMILES strings, which is a reason that canonical SMILES have been defined, which ensures a one to one correspondence between SMILES string and molecule. Here the fact that multiple SMILES represent the same molecule is explored as a technique for data augmentation of a molecular QSAR dataset modeled by a long short term memory (LSTM) cell based neural network. The augmented dataset was 130 times bigger than the original. The network trained with the augmented dataset shows better performance on a test set when compared to a model built with only one canonical SMILES string per molecule. The correlation coefficient R2 on the test set was improved from 0.56 to 0.66 when using SMILES enumeration, and the root mean square error (RMS) likewise fell from 0.62 to 0.55. The technique also works in the prediction phase. By taking the average per molecule of the predictions for the enumerated SMILES a further improvement to a correlation coefficient of 0.68 and a RMS of 0.52 was found.

研究の動機と目的

SMILESの多様性を利用した小分子QSARデータセットのデータ拡張を動機づける。
SMILESを列挙することでニューラルネットワークの訓練安定性と一般化を改善することを示す。
訓練/テスト設定における canonical と列挙 SMILES の予測性能を評価する。
同一分子に対する列挙SMILESの予測の平均化の利点を示す。

提案手法

ランダム化した原子順序と canonical SMILES を無効化したRDKitを用いて分子ごとに複数の SMILES を生成する。
SMILES文字列の固定長ワンホットエンコード表現を構築する。
Keras/Theanoバックエンドを用いて、SMILES列挙有無でLSTMベースのQSARモデルを訓練する。
定義された空間上でGaussian過程を用いたベイズ最適化によるハイパーパラメータ最適化。
訓練データセットではcanonicalのみ vs. 列挙データの性能を比較。
予測の評価指標としてR^2とRMSを算出・比較する; 分子ごとに列挙予測の平均も評価する。）

実験結果

リサーチクエスチョン

RQ1SMILES列挙をデータ拡張として用いることは、canonical SMILESのみに比べてQSARモデルの性能を向上させるか？
RQ2列挙SMILESで訓練することは、訓練セットとテストセットの双方における非canonical SMILESへの一般化にどう影響するか？
RQ3列挙SMILES間での予測の平均化は予測精度にどのような影響を与えるか？
RQ4LSTM-QSARモデルでcanonicalと列挙SMILESを使用する場合の最適ハイパーパラメータは何か？
RQ5拡張は訓練と予測の両方のフェーズで有益か？

主な発見

列挙SMILESデータセットは訓練データを約130倍拡張した（訓練canonical 602 対訓練列挙 79,143; テスト 71 canonical 対 9,412 enumerated）。
最良のcanonicalモデルのテストR^2 = 0.56 および RMS = 0.62; 最良の列挙モデルのテストR^2 = 0.66 および RMS = 0.55。
分子ごとの列挙SMILESの平均予測を用いたテストセットの予測は R^2 = 0.68 かつ RMS = 0.52。
列挙データで訓練された列挙モデルは、canonicalモデルより訓練時のR^2が高く（0.87）、訓練時のRMSが低い（0.37）。
最悪のケースは、canonicalで訓練されたモデルと列挙SMILESを使用した場合（R^2 = 0.26, RMS = 0.84）。
列挙データでの訓練は、ノイズの少ない収束とより速い有効更新をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。