QUICK REVIEW

[論文レビュー] All SMILES Variational Autoencoder

Zaccary Alperstein, Artem Cherkasov|arXiv (Cornell University)|May 30, 2019

Computational Drug Discovery Methods参考文献 70被引用数 40

ひとこと要約

All SMILES VAEは、複数のSMILES文字列を積み重ねたRNNとアテンションで共同処理して分子をエンコードし、その後、分子空間とほぼ直交する分離されたSMILES集合へデコードし、制約された潜在空間内で最先端の性質予測と勾配ベースの分子最適化を達成する。

ABSTRACT

Variational autoencoders (VAEs) defined over SMILES string and graph-based representations of molecules promise to improve the optimization of molecular properties, thereby revolutionizing the pharmaceuticals and materials industries. However, these VAEs are hindered by the non-unique nature of SMILES strings and the computational cost of graph convolutions. To efficiently pass messages along all paths through the molecular graph, we encode multiple SMILES strings of a single molecule using a set of stacked recurrent neural networks, pooling hidden representations of each atom between SMILES representations, and use attentional pooling to build a final fixed-length latent representation. By then decoding to a disjoint set of SMILES strings of the molecule, our All SMILES VAE learns an almost bijective mapping between molecules and latent representations near the high-probability-mass subspace of the prior. Our SMILES-derived but molecule-based latent representations significantly surpass the state-of-the-art in a variety of fully- and semi-supervised property regression and molecular property optimization tasks.

研究の動機と目的

SMILESの非一意性とグラフの複雑さに対処することで、離散的な化学空間における分子性質最適化の改善を動機づける。
SMILES表現ではなく分子レベルの特徴を捉える潜在表現を開発する。
準双射に近い潜在マッピングを介して、勾配ベースの分子性質最適化を効率的に可能にする。
半教師付きおよび完全教師付きの性質予測と毒性評価で最先端の性能を示す。

提案手法

複数のSMILES文字列から分子を、SMILES表現間で対応する原子間にプーリングを行う並列の積み重ねRNNを用いてエンコードする。
SMILES文字列間で同源原子表現をプーリングし、分子グラフ上のメッセージパassingを模倣する。
プールされたRNN出力からBahdanau型アテンションを用いて固定長の潜在表現を形成する。
ビームサーチデコードを用いて同一分子の分離されたSMILES集合へデコードし、分子空間とのほぼ双射を促進する。
潜在表現上で性質回帰器を共同訓練し、事前分布の高確率領域に制約された再パラメータ化潜在空間内で勾配ベースの方法で性質を最適化する。
必要に応じて、デコード時の文法制約を有効にして有効なSMILES文字列にすることを任意で強制する。

実験結果

リサーチクエスチョン

RQ1分子ごとに複数のSMILES文字列から構築された潜在空間は、SMILESの非一意性にもかかわらず、頑健で分子中心の表現をもたらすか？
RQ2分離されたSMILES文字列へのデコードは、性質予測と最適化の一般化を可能にする分子中心の潜在表現を強制するか？
RQ3事前分布の制約領域下での潜在空間における勾配ベースの最適化は、事前分布制約あり/なしの手法と比べて分子性質に対してどのように機能するか？
RQ4All SMILES潜在表現を用いた半教師ありおよび完全教師ありの性質予測・毒性支援における利点は、従来の最先端手法と比較してどの程度か？

主な発見

再構成精度: 保留されたZINC250kのテストセットの87.4%±1%が、平均潜在後方分布とビームサーチデコードを用いて正確に再構成される。
事前分布からサンプルされたサンプルの98.5%±0.1%が有効なSMILES文字列にデコードされる。
新規性と実用性: 50,000個の事前サンプルからデコードされた分子はすべてユニークで、学習データに対して99.958%が新規。平均合成可能性スコアは2.97±0.01。
ZINC250kでの完全教師付き回帰性能は、logPのMAE 0.005±0.0006、QEDのMAE 0.0052±0.0001で、ECFP、CVAE、グラフ畳み込みベースラインを上回る。
Tox21毒性予測: All SMILESはTox21データセットでAUC-ROC 0.871を達成し、いくつかの従来モデルを上回る。
分子最適化: 勾配ベースの潜在空間最適化は、JT-VAE、GCPN、MolDQNの結果と明示的に比較して、最近の最先端手法と同等かそれを上回る、ペナルティ付きlogPとQED値を得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。