Skip to main content
QUICK REVIEW

[論文レビュー] Learning to SMILE(S)

Stanisław Jastrzȩbski, Damian Leśniak|arXiv (Cornell University)|Feb 19, 2016
Computational Drug Discovery Methods被引用数 13
ひとこと要約

本稿では、リガンドベースのバーチャルスクリーニングのため、分子の生SMILES文字列表現に自然言語処理(NLP)からのディープラーニングモデルを直接適用する手法を提案する。特に畳み込みニューラルネットワーク(CNN)を用い、SMILESをテキストとして扱い、CONTEXTなどの最先端NLPモデルを適用することで、手作業で設計された分子フィンガープrint(例:MACCS、KR)を上回る性能を達成しており、小規模データセットでも同様の結果を示している。さらに、分子活性予測における構造的解釈可能性の向上も実現している。

ABSTRACT

This paper shows how one can directly apply natural language processing (NLP) methods to classification problems in cheminformatics. Connection between these seemingly separate fields is shown by considering standard textual representation of compound, SMILES. The problem of activity prediction against a target protein is considered, which is a crucial part of computer aided drug design process. Conducted experiments show that this way one can not only outrank state of the art results of hand crafted representations but also gets direct structural insights into the way decisions are made.

研究の動機と目的

  • ディープラーニングモデルが生SMILES文字列に直接適用可能かどうか、分子活性予測の観点から調査すること。
  • 本アプローチが、リガンドベースのバーチャルスクリーニングにおいて、従来の手作業で設計された分子フィンガープリント(例:MACCS、KR)を上回る性能を示すかどうかを評価すること。
  • 自然言語処理におけるセンチメント分析と化学情報学における活性予測との類似性を検討すること。ここで分子サブストラクチャは文の構造的部品(句)に類似している。
  • 生SMILESからのエンドツーエンド学習が、ドラッグディスcoveryにおいて高い性能と解釈可能性を両立できることを示すこと。

提案手法

  • SMILES文字列を、原子と結合を表す2文字のシンボルとしての文字レベルトークンの系列として扱う。
  • 特にCNN(CONTEXT)およびRNNベースのモデルといった最先端NLPモデルを、特徴工学を施さずに生SMILES文字列に直接適用する。
  • 1分子あたり複数のランダムなSMILESウォークを生成し、予測結果を平均化することでデータオーグメンテーションを実施し、過学習を軽減する。
  • 5分割のストラティファイド交差検証を用い、ログ損失を主評価指標としてモデルを訓練する。
  • 非系列モデル(SVM、RF、NB)については、SMILESを単純なトークン化によりn-gram表現に変換する。
  • CNNの入力にワンホットエンコーディングを用い、生テキストに類似した分子文字列から局所的パターンを直接学習できるようにする。

実験結果

リサーチクエスチョン

  • RQ1生SMILES文字列で訓練されたディープラーニングモデルは、従来の手作業で設計された分子フィンガープリントを上回る分子活性予測性能を示せるか?
  • RQ2自然言語処理におけるセンチメント分析と化学情報学におけるリガンドベースのバーチャルスクリーニングとの間に意味的な類似性があるか?
  • RQ3生SMILES文字列からのエンドツーエンド学習は、特徴工学を施した表現よりも高い性能と解釈可能性を提供するか?
  • RQ4異なるニューラルアーキテクチャ(CNN対RNN)が、小規模データを扱う化学情報学の文脈で、生SMILES文字列に直接適用された場合に、どのように性能を発揮するか?

主な発見

  • 生SMILES文字列を用いたCNNモデルは、5-HT1Aデータセットにおいて最低のログ損失(0.249 ± 0.015)を達成し、すべてのベースラインモデル、包括して最先端のフィンガープリントを上回った。
  • CNNモデルは、すべての5つのデータセットにおいて、SVM やランダムフォレストといった従来のモデルを一貫して上回り、生SMILES処理の有効性を示した。
  • 複数のSMILESウォークを用いたデータオーグメンテーションは、特に小規模データセットにおいてモデルの一般化性能を顕著に向上させた。
  • CNNモデルの成功は、テキストにおけるセンチメントを示すフレーズを検出できる能力に類似しており、局所的構造モチーフの検出に起因している。
  • RNNモデルはデータ量が限られ、SMILES系列における長距離依存関係を捉えるのが困難なため、性能が低かった。
  • 結果は、分子構造と言語構文との類似性を裏付けており、サブストラクチャが全体の活性に影響を与える「句」に類似している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。