Skip to main content
QUICK REVIEW

[論文レビュー] Linking the Neural Machine Translation and the Prediction of Organic Chemistry Reactions

Juno Nam, Jurae Kim|arXiv (Cornell University)|Dec 29, 2016
Topic Modeling参考文献 6被引用数 122
ひとこと要約

本研究は反応生成物予測をニューラル機械翻訳として位置付け、SMILESトークナイザと注意機構を備えたゲート付きリカレントユニットのシーケンス対シーケンスモデルを用いて、反応物と試薬を生成物へ翻訳する。特許反応とWade教科書の反応で訓練される。

ABSTRACT

Finding the main product of a chemical reaction is one of the important problems of organic chemistry. This paper describes a method of applying a neural machine translation model to the prediction of organic chemical reactions. In order to translate 'reactants and reagents' to 'products', a gated recurrent unit based sequence-to-sequence model and a parser to generate input tokens for model from reaction SMILES strings were built. Training sets are composed of reactions from the patent databases, and reactions manually generated applying the elementary reactions in an organic chemistry textbook of Wade. The trained models were tested by examples and problems in the textbook. The prediction process does not need manual encoding of rules (e.g., SMARTS transformations) to predict products, hence it only needs sufficient training reaction sets to learn new types of reactions.

研究の動機と目的

  • 手作業でエンコードされた変換規則を用いずに主要な反応生成物を予測する動機付け。
  • 反応をSMILESとして表現し、予測を反応物/試薬から生成物への翻訳として扱う。
  • 実際の特許由来の訓練データと生成されたテンプレートベースのデータが予測性能にどのように影響するかを評価する。

提案手法

  • PEGベースのパーサを用いて反応のSMILES表現をトークン化し、入力/出力トークン列を作成する。
  • 注意機構を備えた3層GRUエンコーダ-デコーダを用いて、逆順の入力トークンから生成物の確率分布p(y|x)をモデル化する。
  • 実際の特許反応で訓練したモデルと、Wadeテンプレート反応で訓練したモデルの2つを訓練し、比較する。
  • 600次元の埋め込みを用いたスケーラブルな訓練のため、入力/出力列を正規化してビンニングする。
  • Atom mappingsを削除し、極端な反応例をフィルタリングしてモデル入力制約に適合させる。

実験結果

リサーチクエスチョン

  • RQ1ニューラル翻訳モデルは手作りのSMARTSルールなしに有機反応生成物を予測できるか?
  • RQ2実際の特許反応で訓練することは、生成された基本反応テンプレートで訓練するより予測を改善するか?
  • RQ3より長い入力列やより複雑な基質に対してモデルはどれだけ一般化できるか?
  • RQ4入力トークンと生成物の配列を整列させる際の注意機構の影響は何か?

主な発見

  • 実際の特許ベースの訓練データは、生成されたテンプレート反応のみを使用する場合よりも生成物予測を改善する。
  • モデルは、芳香族基質を含む、いくつかの未エンコード反応パターンへ外挿できる。
  • 長い入力列(より多くの原子)は誤り率を上げ、完全に正しい予測を減らすが、real+genモデルは比較的安定したTanimoto類似度と低い無効SMILES率を維持する。
  • 注意機構はデコーダのステップをエンコーダのトークンに対応づけることを示しており、反応部位のより良い対応づけによる改善の可能性を示唆する。
  • より大きく、より多様なデータセット(real+gen)で訓練した場合、単独の生成データより有効な生成物SMILESをより信頼性高く生成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。