Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Make Generalizable and Diverse Predictions for Retrosynthesis

Benson Chen, Tianxiao Shen|arXiv (Cornell University)|Oct 21, 2019
Machine Learning in Materials Science参考文献 26被引用数 52
ひとこと要約

論文は分子 Transformers に二つの事前学習戦略と離散混合モデルを組み込み、ワンステップ再合成予測の一般化と多様性を向上させ、USPTO-50k でトップ10の精度を高め、より多様な出力を示す。

ABSTRACT

We propose a new model for making generalizable and diverse retrosynthetic reaction predictions. Given a target compound, the task is to predict the likely chemical reactants to produce the target. This generative task can be framed as a sequence-to-sequence problem by using the SMILES representations of the molecules. Building on top of the popular Transformer architecture, we propose two novel pre-training methods that construct relevant auxiliary tasks (plausible reactions) for our problem. Furthermore, we incorporate a discrete latent variable model into the architecture to encourage the model to produce a diverse set of alternative predictions. On the 50k subset of reaction examples from the United States patent literature (USPTO-50k) benchmark dataset, our model greatly improves performance over the baseline, while also generating predictions that are more diverse.

研究の動機と目的

  • rare reactions に対するテンプレートなしの再合成モデルの一般化ギャップを解消する。
  • 与えられたターゲット分子に対する予測反応物セットの多様性を高める。
  • 再合成モデルを初期化するための化学的に意味のある事前学習タスクを活用する。
  • 多様な予測モードを生成する離散潜在変数混合を導入する。
  • USPTO-50k およびテンプレート分割で改善された精度と多様性を示す。

提案手法

  • ターゲット SMILES を反応物 SMILES にマッピングする Transformer ベースの seq2seq モデルを使用する。
  • 化学情報学に整合した二つの事前学習スキームを導入する:ランダム結合断裂とテンプレートベースの分解。
  • 複数の予測モードを生み出す反応の離散潜在変数混合を組み込む。
  • オンライン hard-EM を用いて潜在成分の専門化を促進する。
  • USPTO-50k およびテンプレート分割データでトップ-10 精度と多様性指標を評価する。

実験結果

リサーチクエスチョン

  • RQ1Chemically-grounded pre-training は再合成トランスフォーマーの一般化を改善するか?
  • RQ2離散混合モデルはより多様で異なる反応予測を生み出すか?
  • RQ3事前学習と混合成分は標準的なデータ拡張とどのように相互作用してトップ-k 精度に影響するか?
  • RQ4テンプレートなしの再合成は難易度の高い分割でテンプレートベースのベースラインと競争できるか?
  • RQ5ユニークな反応クラスと人間評価による多様性の影響はどうなるか?

主な発見

  • 事前学習(ランダムまたはテンプレートベース)は、データ拡張と組み合わせた場合にベースラインより精度を向上させる。
  • 潜在クラス数(K)が多いほど一般的にはトップ-10精度が高くなるが、トップ-1 精度にはトレードオフが生じる。
  • 混合モデルは予測の多様性を高め、混合モデルはベースモデルより多くのユニークな反応クラスを予測する。
  • テンプレートベース手法が失敗するテンプレート分割において、混合/事前学習アプローチは顕著なトップ-10 精度を達成する(26.6% 対 20.6% のベースライン)。
  • 人間評価では混合モデルがベースモデルより多様と評価されることが多く(43 対 21 の有利評価)。
  • 稀少反応サブセットの結果は、テンプレートベースモデルが下回る場合においても混合と事前学習が一般化をもたらすことを示す。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。