Skip to main content
QUICK REVIEW

[論文レビュー] SMILES-X: autonomous molecular compounds characterization for small datasets without descriptors

G. Lambard, Ekaterina Gracheva|arXiv (Cornell University)|Jun 20, 2019
Machine Learning in Materials Science参考文献 65被引用数 26
ひとこと要約

SMILES-X は、SMILES 文字列のみを入力として用いる、小規模データセットにおける分子性質予測のための新規ニューラルアーキテクチャである。SMILES拡張、注目メカニズムを備えた独自の {Embed-Encode-Attend-Predict} トランスフォーマーライクなアーキテクチャ、およびベイジアンハイパーパramータ最適化を採用することで、手作業で設計された記述子や大規模データセットに依存せずに、水溶性(RMSE ≈ 0.57 mols/L)、水和自由エネルギー(RMSE ≈ 0.81 kcal/mol)、LogD(RMSE ≈ 0.59)の予測において最先端の性能を達成した。

ABSTRACT

There is more and more evidence that machine learning can be successfully applied in materials science and related fields. However, datasets in these fields are often quite small ($\ll1000$ samples). It makes the most advanced machine learning techniques remain neglected, as they are considered to be applicable to big data only. Moreover, materials informatics methods often rely on human-engineered descriptors, that should be carefully chosen, or even created, to fit the physicochemical property that one intends to predict. In this article, we propose a new method that tackles both the issue of small datasets and the difficulty of task-specific descriptors development. The SMILES-X is an autonomous pipeline for molecular compounds characterisation based on a \{Embed-Encode-Attend-Predict\} neural architecture with a data-specific Bayesian hyper-parameters optimisation. The only input to the architecture -- the SMILES strings -- are de-canonicalised in order to efficiently augment the data. One of the key features of the architecture is the attention mechanism, which enables the interpretation of output predictions without extra computational cost. The SMILES-X shows new state-of-the-art results in the inference of aqueous solubility ($\overline{RMSE}_{test} \simeq 0.57 \pm 0.07$ mols/L), hydration free energy ($\overline{RMSE}_{test} \simeq 0.81 \pm 0.22$ kcal/mol, which is $\sim 24.5\%$ better than molecular dynamics simulations), and octanol/water distribution coefficient ($\overline{RMSE}_{test} \simeq 0.59 \pm 0.02$ for LogD at pH 7.4) of molecular compounds. The SMILES-X is intended to become an important asset in the toolkit of materials scientists and chemists. The source code for the SMILES-X is available at \href{https://github.com/GLambard/SMILES-X}{github.com/GLambard/SMILES-X}.

研究の動機と目的

  • 材料科学分野において一般的に見られる小規模な分子データセット(1000件未満)に対する深層学習モデルの学習課題に対処する。
  • 手作業で設計された分子記述子に依存せずに、生の SMILES 文字列を入力として用いることにより、その必要性を排除する。
  • 追加の学習を伴わず、注目メカニズムによって化学的に関連する断片を強調することで、解釈可能な予測を可能にする。
  • ベイジアン最適化を用いて各データセットごとにハイパーパramータを最適化する、エンドツーエンドで自律的なパイプラインを開発する。
  • 水溶性、水和自由エネルギー、分配係数といった重要な物理化学的性質の予測において、最先端の性能を達成する。

提案手法

  • データの多様性を高めるために、SMILES拡張を用いることで、唯一の入力表現として非標準化された SMILES 文字列を採用する。
  • 小規模データセットにおける汎化性能を向上させるために、データ固有のベイジアン最適化を用いてニューラルネットワークのハイパーパramータをチューニングする。
  • 注目メカニズムを備えた {Embed-Encode-Attend-Predict} ニューラルアーキテクチャを採用し、予測時に関連する分子断片に注目する。
  • 注目重みを活用することで、予測の解釈をリアルタイムかつモデルに依存しない形で可能にし、影響力のある SMILES トークンを強調する。
  • SMILES が1トークンずつ読み進められる過程で予測がどのように変化するかを追跡するため、時間的相対距離(Tdist)を用いることで、構造的要因の動的影響を明らかにする。
  • 注目に基づく特徴選択により、トレーニング可能なパラメータ数を最小限に抑えることで、モデルの複雑さと過学習のリスクを低減する。

実験結果

リサーチクエスチョン

  • RQ1手作業で設計された記述子を一切使用せずに、深層学習モデルが分子の物理化学的性質を最先端の性能で予測できるか。
  • RQ2非標準化および再インデックス化による SMILES 拡張(de-canonicalization と reindexing)が、小規模データセットにおけるモデルの汎化性能向上にどの程度有効であるか。
  • RQ3軽量なニューラルアーキテクチャにおける注目メカニズムが、追加の学習を伴わず、どの程度解釈可能な予測を提供できるか。
  • RQ4ベイジアンハイパーパramータ最適化は、ランダムサーチやグリッドサーチと比較して、小規模な分子データセットにおける性能向上に顕著な効果を示すか。
  • RQ5SMILES-X パイプラインは、MoleculeNet などのベンチマークデータセットにおいて、水溶性、水和自由エネルギー、LogD の予測において、既存の手法を上回る性能を発揮するか。

主な発見

  • ESOL データセットにおける水溶性予測では、SMILES-X がテスト RMSE 0.57 ± 0.07 mols/L を達成し、新たな最先端性能を樹立した。
  • FreeSolv データセットにおける水和自由エネルギー予測では、SMILES-X が RMSE 0.81 ± 0.22 kcal/mol を達成し、分子動力学的シミュレーションと比較して 24.5% の改善を示した。
  • Lipophilicity データセットでは、pH 7.4 における LogD 予測で RMSE 0.59 ± 0.02 を達成し、分配係数予測の高精度を示した。
  • 注目メカニズムは、フェノール化合物における酸素原子といった化学的に関連する断片を、水和自由エネルギー予測において最も影響力のある要因として正しく同定した。
  • 時間的相対距離(Tdist)分析から、予測が非常に早く安定化することが判明し、SMILES 文字列の最初の数トークンを処理した段階ですでに顕著な収束が観察された。
  • グラフベースのアーキテクチャでは実現不可能な非標準化を伴わない SMILES 拡張が、測定可能な性能向上(Can 対 Augm)をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。