Skip to main content
QUICK REVIEW

[論文レビュー] ReactionT5: a large-scale pre-trained model towards application of limited reaction data

Tatsuya Sagawa, Ryosuke Kojima|arXiv (Cornell University)|Nov 12, 2023
Machine Learning in Materials Science被引用数 8
ひとこと要約

ReactionT5は、化合物とオープン反応データ(ORD)で事前学習を行う二段階の事前学習Transformer(T5ベース)で、限られた微調整データでの収率と生成物予測を可能にする。未分類ORD化合物の復元後に特に競争力のある性能と良好な汎化を示す。

ABSTRACT

Transformer-based deep neural networks have revolutionized the field of molecular-related prediction tasks by treating molecules as symbolic sequences. These models have been successfully applied in various organic chemical applications by pretraining them with extensive compound libraries and subsequently fine-tuning them with smaller in-house datasets for specific tasks. However, many conventional methods primarily focus on single molecules, with limited exploration of pretraining for reactions involving multiple molecules. In this paper, we propose ReactionT5, a novel model that leverages pretraining on the Open Reaction Database (ORD), a publicly available large-scale resource. We further fine-tune this model for yield prediction and product prediction tasks, demonstrating its impressive performance even with limited fine-tuning data compared to traditional models. The pre-trained ReactionT5 model is publicly accessible on the Hugging Face platform.

研究の動機と目的

  • マルチ分子反応におけるスケーラブルな事前学習モデルの必要性を動機づける。
  • ZINCとORDデータを用いた二段階の事前学習パイプライン(CompoundT5 then ReactionT5)を開発。
  • 限られた微調整データでの生成物予測と収率予測のモデル効果を実証。

提案手法

  • 反応タスクをT5アーキテクチャを用いたテキスト対テキスト問題として定式化。
  • Stage 1: SMILESを用いたZINCからのスパンマスク言語モデリングでCompoundT5を作成する化合物前学習。
  • Stage 2: ORDデータを用い、6つの反応役割(反応物、試薬、溶媒、触媒、生成物、収率)を使用してReactionT5を作成する反応前学習。
  • 欠落した役割を復元し、未分類ORD化合物を分類するRestorationT5を導入。
  • ターゲットデータセット(生成物予測にはUSPTO、収率予測にはBuchwald–Hartwig C–N クロスカップリング)でReactionT5を微調整。
  • 生成物予測の精度を高めるためにビーム探索のサイズを10として使用し、長さ制約を最適化。
Figure 1: A workflow of our method. We start with the base T5 model, from which we derive CompoundT5 through pretraining on compound pretraining. Next, we introduce RestorationT5 developed from the CompoundT5 model to restore uncategorized data in the reaction database. After that, ReactionT5 is con
Figure 1: A workflow of our method. We start with the base T5 model, from which we derive CompoundT5 through pretraining on compound pretraining. Next, we introduce RestorationT5 developed from the CompoundT5 model to restore uncategorized data in the reaction database. After that, ReactionT5 is con

実験結果

リサーチクエスチョン

  • RQ1二段階の事前学習Transformer(CompoundT5→ReactionT5)は、小規模なターゲットデータセットで生成物および収率予測を改善できるか?
  • RQ2 uncategorized ORD化合物の復元は最小限の微調整で生成物予測性能を高めるか?
  • RQ3ReactionT5はゼロショットおよび少量データの微調整シナリオで、従来モデルと比較してどうか?

主な発見

モデル学習テストTop1Top2Top3Top5invalidity
Seq-to-seqUSPTOUSPTO80.384.786.287.5-
WLDNUSPTOUSPTO85.690.592.893.4-
Mol TransformerUSPTOUSPTO88.892.6-94.4-
T5ChemUSPTOUSPTO90.494.2-96.4-
CompoundT5USPTOUSPTO88.092.493.995.07.5
ReactionT5(ORD)-USPTO0.00.00.00.00.6
ReactionT5(ORD)USPTO200USPTO0.00.00.00.04.2
ReactionT5(restored ORD)-USPTO0.00.00.00.01.1
ReactionT5(restored ORD)USPTO200USPTO85.591.793.594.912.0
  • ORDで復元された未分類ORDデータを用いたReactionT5の事前学習は、限られたUSPTOデータで微調整した場合にも競争力のある生成物予測を達成する。
  • わずか30–200件のUSPTO反応で微調整しても、生成物予測のTop1精度が80%超を達成し、データ全量で学習したモデルに近づく。
  • ORDで訓練したReactionT5は、収率予測タスクで特に外部Test1–4データセットに対して強い汎化を示す。
  • RestorationT5は最小限の追加微調整でORDベースの生成物予測を改善する。
  • ゼロショットのReactionT5は、データの30%で訓練したいくつかのベースラインを上回る可能性がある。
Figure 2: (A) A reaction record in the reaction database is represented as a reactant, reagent, solvent catalyst, product, and yield. All the compounds in this record are represented in SMILES format. (B) ReactionT5 uses text format for inputs, where SMILES and special tokens representing reactant,
Figure 2: (A) A reaction record in the reaction database is represented as a reactant, reagent, solvent catalyst, product, and yield. All the compounds in this record are represented in SMILES format. (B) ReactionT5 uses text format for inputs, where SMILES and special tokens representing reactant,

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。