[論文レビュー] SMILES Transformer: Pre-trained Molecular Fingerprint for Low Data Drug Discovery
SMILES Transformerを導入。分子の事前学習済みTransformerベースの指紋は、小規模データセットでデータ効率の高い予測を実現し、MoleculeNetベンチマークでも競争力のある結果を示します。
In drug-discovery-related tasks such as virtual screening, machine learning is emerging as a promising way to predict molecular properties. Conventionally, molecular fingerprints (numerical representations of molecules) are calculated through rule-based algorithms that map molecules to a sparse discrete space. However, these algorithms perform poorly for shallow prediction models or small datasets. To address this issue, we present SMILES Transformer. Inspired by Transformer and pre-trained language models from natural language processing, SMILES Transformer learns molecular fingerprints through unsupervised pre-training of the sequence-to-sequence language model using a huge corpus of SMILES, a text representation system for molecules. We performed benchmarks on 10 datasets against existing fingerprints and graph-based methods and demonstrated the superiority of the proposed algorithms in small-data settings where pre-training facilitated good generalization. Moreover, we define a novel metric to concurrently measure model accuracy and data efficiency.
研究の動機と目的
- 薬物発見におけるデータ効率の高い分子表現の必要性を、特にラベル付きデータが限られている状況で動機付ける。
- 大規模なラベルなし SMILES コーパスから学習されたTransformerベースのテキスト由来の指紋を提案する。
- SMILES Transformer (ST) 指紋が単純な予測器をサポートし、MoleculeNetタスクでデータ効率が高いことを示す。
- トレーニングデータサイズの変化を評価するデータ効iciency指標(DEM)を導入する。
提案手法
- SMILESから連続的な分子指紋を生成する4ブロック・4ヘッド注意機構のエンコーダ-デコーダTransformerを構築する。
- ChEMBL24の861,000件のラベルなしSMILESをSMILES列挙戦略とクロスエントロピー目的関数で事前学習する。
- 記号レベルの出力をプーリングして分子レベルの指紋を抽出し、平均・最大・最初-最後の層を用いて1024次元ベクトルを得る。
- ST指紋をECFP4、RNNS2S、GraphConvと比較し、10の MoleculeNetデータセットでMLP風予測子を用いて評価する。
- 訓練データサイズが指数的に増加する際の性能を平均化するデータ効率指標(DEM)を定義・計算する。
- ST指紋がなぜ特定のデータセットで良好な性能を示すのかを探るためにt-SNEで潜在空間を可視化する。
実験結果
リサーチクエスチョン
- RQ1ST指紋は従来の指紋やグラフベース手法を小データ regimeで上回るのか?
- RQ2訓練データが少ない場合、STはベースラインと比較してどれだけデータ効率が高いのか?
- RQ3ST潜在空間の性質がデータセット間の予測性能とどのように相関するのか?
主な発見
| データセット | ESOL ↓ | FrSlv ↓ | Lipo ↓ | MUV ↑ | HIV ↑ | BACE ↑ | BBBP ↑ | Tox21 ↑ | Sider ↑ | ClinTox ↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| ST+MLP | 1.144 | 2.246 | 1.169 | 0.009 | 0.683 | 0.719 | 0.900 | 0.706 | 0.559 | 0.963 |
| ECFP+MLP | 1.741 | 3.043 | 1.090 | 0.036 | 0.697 | 0.769 | 0.760 | 0.616 | 0.588 | 0.515 |
| RNNS2S+MLP | 1.317 | 2.987 | 1.219 | 0.010 | 0.682 | 0.717 | 0.884 | 0.702 | 0.558 | 0.904 |
| GraphConv+MLP | 1.673 | 3.476 | 1.062 | 0.004 | 0.723 | 0.744 | 0.795 | 0.687 | 0.557 | 0.936 |
- STは10の MoleculeNetデータセットのうち5つで最高データ効率性能(DEM)を達成し、特に小データ領域(ESOL、FreeSolv、BBB P、ClinTox)で顕著。
- ST指紋は単純な予測器(MLP、リッジ/ロジスティック回帰)と組み合わせると、いくつかのタスクでベースラインと競合する、またはそれを上回る。
- STは全体的にGraphConvとECFP4と競合可能で、データが限られた設定でもベースラインに匹敵または上回ることがある。
- 長いSMILESはSTの性能を高める傾向があり、長い列がより豊かな情報内容を含むことを示唆。
- 新しいデータ効率指標(DEM)は、訓練データサイズが変化するときの性能を効果的に捉える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。