Skip to main content
QUICK REVIEW

[論文レビュー] SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery

Shion Honda, Shoi Shi|arXiv (Cornell University)|Nov 12, 2019
Computational Drug Discovery Methods参考文献 32被引用数 163
ひとこと要約

SMILES Transformerを導入。分子の事前学習済みTransformerベースの指紋は、小規模データセットでデータ効率の高い予測を実現し、MoleculeNetベンチマークでも競争力のある結果を示します。

ABSTRACT

In drug-discovery-related tasks such as virtual screening, machine learning is emerging as a promising way to predict molecular properties. Conventionally, molecular fingerprints (numerical representations of molecules) are calculated through rule-based algorithms that map molecules to a sparse discrete space. However, these algorithms perform poorly for shallow prediction models or small datasets. To address this issue, we present SMILES Transformer. Inspired by Transformer and pre-trained language models from natural language processing, SMILES Transformer learns molecular fingerprints through unsupervised pre-training of the sequence-to-sequence language model using a huge corpus of SMILES, a text representation system for molecules. We performed benchmarks on 10 datasets against existing fingerprints and graph-based methods and demonstrated the superiority of the proposed algorithms in small-data settings where pre-training facilitated good generalization. Moreover, we define a novel metric to concurrently measure model accuracy and data efficiency.

研究の動機と目的

  • 薬物発見におけるデータ効率の高い分子表現の必要性を、特にラベル付きデータが限られている状況で動機付ける。
  • 大規模なラベルなし SMILES コーパスから学習されたTransformerベースのテキスト由来の指紋を提案する。
  • SMILES Transformer (ST) 指紋が単純な予測器をサポートし、MoleculeNetタスクでデータ効率が高いことを示す。
  • トレーニングデータサイズの変化を評価するデータ効iciency指標(DEM)を導入する。

提案手法

  • SMILESから連続的な分子指紋を生成する4ブロック・4ヘッド注意機構のエンコーダ-デコーダTransformerを構築する。
  • ChEMBL24の861,000件のラベルなしSMILESをSMILES列挙戦略とクロスエントロピー目的関数で事前学習する。
  • 記号レベルの出力をプーリングして分子レベルの指紋を抽出し、平均・最大・最初-最後の層を用いて1024次元ベクトルを得る。
  • ST指紋をECFP4、RNNS2S、GraphConvと比較し、10の MoleculeNetデータセットでMLP風予測子を用いて評価する。
  • 訓練データサイズが指数的に増加する際の性能を平均化するデータ効率指標(DEM)を定義・計算する。
  • ST指紋がなぜ特定のデータセットで良好な性能を示すのかを探るためにt-SNEで潜在空間を可視化する。

実験結果

リサーチクエスチョン

  • RQ1ST指紋は従来の指紋やグラフベース手法を小データ regimeで上回るのか?
  • RQ2訓練データが少ない場合、STはベースラインと比較してどれだけデータ効率が高いのか?
  • RQ3ST潜在空間の性質がデータセット間の予測性能とどのように相関するのか?

主な発見

データセットESOL ↓FrSlv ↓Lipo ↓MUV ↑HIV ↑BACE ↑BBBP ↑Tox21 ↑Sider ↑ClinTox ↑
ST+MLP1.1442.2461.1690.0090.6830.7190.9000.7060.5590.963
ECFP+MLP1.7413.0431.0900.0360.6970.7690.7600.6160.5880.515
RNNS2S+MLP1.3172.9871.2190.0100.6820.7170.8840.7020.5580.904
GraphConv+MLP1.6733.4761.0620.0040.7230.7440.7950.6870.5570.936
  • STは10の MoleculeNetデータセットのうち5つで最高データ効率性能(DEM)を達成し、特に小データ領域(ESOL、FreeSolv、BBB P、ClinTox)で顕著。
  • ST指紋は単純な予測器(MLP、リッジ/ロジスティック回帰)と組み合わせると、いくつかのタスクでベースラインと競合する、またはそれを上回る。
  • STは全体的にGraphConvとECFP4と競合可能で、データが限られた設定でもベースラインに匹敵または上回ることがある。
  • 長いSMILESはSTの性能を高める傾向があり、長い列がより豊かな情報内容を含むことを示唆。
  • 新しいデータ効率指標(DEM)は、訓練データサイズが変化するときの性能を効果的に捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。