QUICK REVIEW

[論文レビュー] ReactionT5: a large-scale pre-trained model towards application of limited reaction data

Tatsuya Sagawa, Ryosuke Kojima|arXiv (Cornell University)|Nov 12, 2023

Machine Learning in Materials Science被引用数 8

ひとこと要約

ReactionT5は、化合物とオープン反応データ(ORD)で事前学習を行う二段階の事前学習Transformer（T5ベース）で、限られた微調整データでの収率と生成物予測を可能にする。未分類ORD化合物の復元後に特に競争力のある性能と良好な汎化を示す。

ABSTRACT

Transformer-based deep neural networks have revolutionized the field of molecular-related prediction tasks by treating molecules as symbolic sequences. These models have been successfully applied in various organic chemical applications by pretraining them with extensive compound libraries and subsequently fine-tuning them with smaller in-house datasets for specific tasks. However, many conventional methods primarily focus on single molecules, with limited exploration of pretraining for reactions involving multiple molecules. In this paper, we propose ReactionT5, a novel model that leverages pretraining on the Open Reaction Database (ORD), a publicly available large-scale resource. We further fine-tune this model for yield prediction and product prediction tasks, demonstrating its impressive performance even with limited fine-tuning data compared to traditional models. The pre-trained ReactionT5 model is publicly accessible on the Hugging Face platform.

研究の動機と目的

マルチ分子反応におけるスケーラブルな事前学習モデルの必要性を動機づける。
ZINCとORDデータを用いた二段階の事前学習パイプライン（CompoundT5 then ReactionT5）を開発。
限られた微調整データでの生成物予測と収率予測のモデル効果を実証。

提案手法

反応タスクをT5アーキテクチャを用いたテキスト対テキスト問題として定式化。
Stage 1: SMILESを用いたZINCからのスパンマスク言語モデリングでCompoundT5を作成する化合物前学習。
Stage 2: ORDデータを用い、6つの反応役割（反応物、試薬、溶媒、触媒、生成物、収率）を使用してReactionT5を作成する反応前学習。
欠落した役割を復元し、未分類ORD化合物を分類するRestorationT5を導入。
ターゲットデータセット（生成物予測にはUSPTO、収率予測にはBuchwald–Hartwig C–N クロスカップリング）でReactionT5を微調整。
生成物予測の精度を高めるためにビーム探索のサイズを10として使用し、長さ制約を最適化。

Figure 1: A workflow of our method. We start with the base T5 model, from which we derive CompoundT5 through pretraining on compound pretraining. Next, we introduce RestorationT5 developed from the CompoundT5 model to restore uncategorized data in the reaction database. After that, ReactionT5 is con

実験結果

リサーチクエスチョン

RQ1二段階の事前学習Transformer（CompoundT5→ReactionT5）は、小規模なターゲットデータセットで生成物および収率予測を改善できるか？
RQ2 uncategorized ORD化合物の復元は最小限の微調整で生成物予測性能を高めるか？
RQ3ReactionT5はゼロショットおよび少量データの微調整シナリオで、従来モデルと比較してどうか？

主な発見

モデル	学習	テスト	Top1	Top2	Top3	Top5	invalidity
Seq-to-seq	USPTO	USPTO	80.3	84.7	86.2	87.5	-
WLDN	USPTO	USPTO	85.6	90.5	92.8	93.4	-
Mol Transformer	USPTO	USPTO	88.8	92.6	-	94.4	-
T5Chem	USPTO	USPTO	90.4	94.2	-	96.4	-
CompoundT5	USPTO	USPTO	88.0	92.4	93.9	95.0	7.5
ReactionT5(ORD)	-	USPTO	0.0	0.0	0.0	0.0	0.6
ReactionT5(ORD)	USPTO200	USPTO	0.0	0.0	0.0	0.0	4.2
ReactionT5(restored ORD)	-	USPTO	0.0	0.0	0.0	0.0	1.1
ReactionT5(restored ORD)	USPTO200	USPTO	85.5	91.7	93.5	94.9	12.0

ORDで復元された未分類ORDデータを用いたReactionT5の事前学習は、限られたUSPTOデータで微調整した場合にも競争力のある生成物予測を達成する。
わずか30–200件のUSPTO反応で微調整しても、生成物予測のTop1精度が80%超を達成し、データ全量で学習したモデルに近づく。
ORDで訓練したReactionT5は、収率予測タスクで特に外部Test1–4データセットに対して強い汎化を示す。
RestorationT5は最小限の追加微調整でORDベースの生成物予測を改善する。
ゼロショットのReactionT5は、データの30%で訓練したいくつかのベースラインを上回る可能性がある。

Figure 2: (A) A reaction record in the reaction database is represented as a reactant, reagent, solvent catalyst, product, and yield. All the compounds in this record are represented in SMILES format. (B) ReactionT5 uses text format for inputs, where SMILES and special tokens representing reactant,

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。