QUICK REVIEW

[論文レビュー] SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery

Shion Honda, Shoi Shi|arXiv (Cornell University)|Nov 12, 2019

Computational Drug Discovery Methods参考文献 32被引用数 163

ひとこと要約

SMILES Transformerを導入。分子の事前学習済みTransformerベースの指紋は、小規模データセットでデータ効率の高い予測を実現し、MoleculeNetベンチマークでも競争力のある結果を示します。

ABSTRACT

In drug-discovery-related tasks such as virtual screening, machine learning is emerging as a promising way to predict molecular properties. Conventionally, molecular fingerprints (numerical representations of molecules) are calculated through rule-based algorithms that map molecules to a sparse discrete space. However, these algorithms perform poorly for shallow prediction models or small datasets. To address this issue, we present SMILES Transformer. Inspired by Transformer and pre-trained language models from natural language processing, SMILES Transformer learns molecular fingerprints through unsupervised pre-training of the sequence-to-sequence language model using a huge corpus of SMILES, a text representation system for molecules. We performed benchmarks on 10 datasets against existing fingerprints and graph-based methods and demonstrated the superiority of the proposed algorithms in small-data settings where pre-training facilitated good generalization. Moreover, we define a novel metric to concurrently measure model accuracy and data efficiency.

研究の動機と目的

薬物発見におけるデータ効率の高い分子表現の必要性を、特にラベル付きデータが限られている状況で動機付ける。
大規模なラベルなし SMILES コーパスから学習されたTransformerベースのテキスト由来の指紋を提案する。
SMILES Transformer (ST) 指紋が単純な予測器をサポートし、MoleculeNetタスクでデータ効率が高いことを示す。
トレーニングデータサイズの変化を評価するデータ効iciency指標（DEM）を導入する。

提案手法

SMILESから連続的な分子指紋を生成する4ブロック・4ヘッド注意機構のエンコーダ-デコーダTransformerを構築する。
ChEMBL24の861,000件のラベルなしSMILESをSMILES列挙戦略とクロスエントロピー目的関数で事前学習する。
記号レベルの出力をプーリングして分子レベルの指紋を抽出し、平均・最大・最初-最後の層を用いて1024次元ベクトルを得る。
ST指紋をECFP4、RNNS2S、GraphConvと比較し、10の MoleculeNetデータセットでMLP風予測子を用いて評価する。
訓練データサイズが指数的に増加する際の性能を平均化するデータ効率指標（DEM）を定義・計算する。
ST指紋がなぜ特定のデータセットで良好な性能を示すのかを探るためにt-SNEで潜在空間を可視化する。

実験結果

リサーチクエスチョン

RQ1ST指紋は従来の指紋やグラフベース手法を小データ regimeで上回るのか？
RQ2訓練データが少ない場合、STはベースラインと比較してどれだけデータ効率が高いのか？
RQ3ST潜在空間の性質がデータセット間の予測性能とどのように相関するのか？

主な発見

データセット	ESOL ↓	FrSlv ↓	Lipo ↓	MUV ↑	HIV ↑	BACE ↑	BBBP ↑	Tox21 ↑	Sider ↑	ClinTox ↑
ST+MLP	1.144	2.246	1.169	0.009	0.683	0.719	0.900	0.706	0.559	0.963
ECFP+MLP	1.741	3.043	1.090	0.036	0.697	0.769	0.760	0.616	0.588	0.515
RNNS2S+MLP	1.317	2.987	1.219	0.010	0.682	0.717	0.884	0.702	0.558	0.904
GraphConv+MLP	1.673	3.476	1.062	0.004	0.723	0.744	0.795	0.687	0.557	0.936

STは10の MoleculeNetデータセットのうち5つで最高データ効率性能（DEM）を達成し、特に小データ領域（ESOL、FreeSolv、BBB P、ClinTox）で顕著。
ST指紋は単純な予測器（MLP、リッジ/ロジスティック回帰）と組み合わせると、いくつかのタスクでベースラインと競合する、またはそれを上回る。
STは全体的にGraphConvとECFP4と競合可能で、データが限られた設定でもベースラインに匹敵または上回ることがある。
長いSMILESはSTの性能を高める傾向があり、長い列がより豊かな情報内容を含むことを示唆。
新しいデータ効率指標（DEM）は、訓練データサイズが変化するときの性能を効果的に捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。