QUICK REVIEW

[論文レビュー] SELFIES: a robust representation of semantically constrained graphs with an example application in chemistry.

Mario Krenn, Florian Häse|arXiv (Cornell University)|May 31, 2019

Computational Drug Discovery Methods参考文献 43被引用数 54

ひとこと要約

この論文では、生成されたすべての文字列が化学的に有効な分子に対応することを保証する、100%有効な文字列ベースの分子表現であるSELFIESを導入する。階層的で自己参照的な文法を用いて分子構造を符号化することで、化学分野における堅牢な生成的機械学習を可能にし、モデルのメモリ内の多様性を2桁向上させ、後処理を伴わずに解釈可能で有効な分子生成を実現する。

ABSTRACT

The discovery of novel materials and functional molecules can help to solve some of society's most urgent challenges, ranging from efficient energy harvesting and storage to uncovering novel pharmaceutical drug candidates. Traditionally matter engineering -- generally denoted as inverse design -- was based massively on human intuition and high-throughput virtual screening. The last few years have seen the emergence of significant interest in computer-inspired designs based on evolutionary or deep learning methods. The major challenge here is that the standard strings molecular representation SMILES shows substantial weaknesses in that task because large fractions of strings do not correspond to valid molecules. Here, we solve this problem at a fundamental level and introduce SELFIES (SELF-referencIng Embedded Strings), a string-based representation of molecules which is 100\% robust. Every SELFIES string corresponds to a valid molecule, and SELFIES can represent every molecule. SELFIES can be directly applied in arbitrary machine learning models without the adaptation of the models; each of the generated molecule candidates is valid. In our experiments, the model's internal memory stores two orders of magnitude more diverse molecules than a similar test with SMILES. Furthermore, as all molecules are valid, it allows for explanation and interpretation of the internal working of the generative models.

研究の動機と目的

SMILESの根本的限界、すなわち生成された文字列の大部分が無効な分子であるという問題を解決し、有効性を保証する表現を構築すること。
生成候補が初期段階から化学的に有効であることを保証することで、機械学習を用いた信頼性の高い効率的な逆分子設計を可能にすること。
検証フィルタリングを用いない、多様でメモリ効率の良い化学空間の探索を生成モデルで支援すること。
探索空間から無効な分子候補を排除することで、生成モデルの挙動の解釈を容易にすること。
任意の機械学習モデルにアーキテクチャの変更なしに直接使用可能な、普遍的で文法ベースの文字列表現を提供すること。

提案手法

分子構造を再帰的で文脈自由なアプローチによって、構文的有効性を保証する階層的で自己参照的な文法を設計する。
結合価数と結合性の制約を文法レベルで強制する固定された生成規則のセットを用いて、分子を文字列として表現する。
自己参照トークンを用いて分子部分構造を符号化し、複雑な断片のコンパクトな表現を可能にする。
設計上、すべての可能な文字列が一意で有効な分子に対応する文字列表現を構築する。
モデルの再トレーニングやアーキテクチャの変更なしに、SELFIESを既存の機械学習モデルに直接統合する。
文法ベースの構造を活用して、潜在空間における多様性が非常に高い分子の効率的探索と生成を可能にする。

実験結果

リサーチクエスチョン

RQ1すべての可能な文字列が有効な分子に対応する文字列ベースの分子表現を構築できるか？
RQ2生成モデルにおけるメモリ効率と生成分子の多様性の観点で、SELFIESはSMILESと比べてどのように異なるか？
RQ3100%有効な表現を用いることで、分子生成における機械学習モデルの解釈可能性と信頼性はどの程度向上するか？
RQ4SELFIESはモデルアーキテクチャの変更なしに、既存のディープラーニングフレームワークにスムーズに統合できるか？
RQ5SELFIESの使用により、モデルの学習中に探索される一意で有効な分子の数が顕著に増加するか？

主な発見

すべてのSELFIES文字列が有効な分子に対応しており、後処理やフィルタリングなしに100%の有効性が保証される。
モデルの内部メモリが、類似のSMILESベースのモデルと比較して、2桁分も多様性の高い分子を保持していた。
アーキテクチャの適応なしに任意の機械学習モデルに直接適用可能であり、統合を簡素化する。
結合価数と結合性を強制する自己参照的な文法を用いることで、複雑で有効な分子構造の生成を支援する。
探索空間に無効な候補が存在しないため、生成モデル挙動の解釈が明確になる。
SELFIESはあらゆる可能な分子を表現可能であり、分子空間に対する普遍的かつ完全な表現である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。