[論文レビュー] ReactionT5: a large-scale pre-trained model towards application of limited reaction data
ReactionT5は、化合物とオープン反応データ(ORD)で事前学習を行う二段階の事前学習Transformer(T5ベース)で、限られた微調整データでの収率と生成物予測を可能にする。未分類ORD化合物の復元後に特に競争力のある性能と良好な汎化を示す。
Transformer-based deep neural networks have revolutionized the field of molecular-related prediction tasks by treating molecules as symbolic sequences. These models have been successfully applied in various organic chemical applications by pretraining them with extensive compound libraries and subsequently fine-tuning them with smaller in-house datasets for specific tasks. However, many conventional methods primarily focus on single molecules, with limited exploration of pretraining for reactions involving multiple molecules. In this paper, we propose ReactionT5, a novel model that leverages pretraining on the Open Reaction Database (ORD), a publicly available large-scale resource. We further fine-tune this model for yield prediction and product prediction tasks, demonstrating its impressive performance even with limited fine-tuning data compared to traditional models. The pre-trained ReactionT5 model is publicly accessible on the Hugging Face platform.
研究の動機と目的
- マルチ分子反応におけるスケーラブルな事前学習モデルの必要性を動機づける。
- ZINCとORDデータを用いた二段階の事前学習パイプライン(CompoundT5 then ReactionT5)を開発。
- 限られた微調整データでの生成物予測と収率予測のモデル効果を実証。
提案手法
- 反応タスクをT5アーキテクチャを用いたテキスト対テキスト問題として定式化。
- Stage 1: SMILESを用いたZINCからのスパンマスク言語モデリングでCompoundT5を作成する化合物前学習。
- Stage 2: ORDデータを用い、6つの反応役割(反応物、試薬、溶媒、触媒、生成物、収率)を使用してReactionT5を作成する反応前学習。
- 欠落した役割を復元し、未分類ORD化合物を分類するRestorationT5を導入。
- ターゲットデータセット(生成物予測にはUSPTO、収率予測にはBuchwald–Hartwig C–N クロスカップリング)でReactionT5を微調整。
- 生成物予測の精度を高めるためにビーム探索のサイズを10として使用し、長さ制約を最適化。

実験結果
リサーチクエスチョン
- RQ1二段階の事前学習Transformer(CompoundT5→ReactionT5)は、小規模なターゲットデータセットで生成物および収率予測を改善できるか?
- RQ2 uncategorized ORD化合物の復元は最小限の微調整で生成物予測性能を高めるか?
- RQ3ReactionT5はゼロショットおよび少量データの微調整シナリオで、従来モデルと比較してどうか?
主な発見
| モデル | 学習 | テスト | Top1 | Top2 | Top3 | Top5 | invalidity |
|---|---|---|---|---|---|---|---|
| Seq-to-seq | USPTO | USPTO | 80.3 | 84.7 | 86.2 | 87.5 | - |
| WLDN | USPTO | USPTO | 85.6 | 90.5 | 92.8 | 93.4 | - |
| Mol Transformer | USPTO | USPTO | 88.8 | 92.6 | - | 94.4 | - |
| T5Chem | USPTO | USPTO | 90.4 | 94.2 | - | 96.4 | - |
| CompoundT5 | USPTO | USPTO | 88.0 | 92.4 | 93.9 | 95.0 | 7.5 |
| ReactionT5(ORD) | - | USPTO | 0.0 | 0.0 | 0.0 | 0.0 | 0.6 |
| ReactionT5(ORD) | USPTO200 | USPTO | 0.0 | 0.0 | 0.0 | 0.0 | 4.2 |
| ReactionT5(restored ORD) | - | USPTO | 0.0 | 0.0 | 0.0 | 0.0 | 1.1 |
| ReactionT5(restored ORD) | USPTO200 | USPTO | 85.5 | 91.7 | 93.5 | 94.9 | 12.0 |
- ORDで復元された未分類ORDデータを用いたReactionT5の事前学習は、限られたUSPTOデータで微調整した場合にも競争力のある生成物予測を達成する。
- わずか30–200件のUSPTO反応で微調整しても、生成物予測のTop1精度が80%超を達成し、データ全量で学習したモデルに近づく。
- ORDで訓練したReactionT5は、収率予測タスクで特に外部Test1–4データセットに対して強い汎化を示す。
- RestorationT5は最小限の追加微調整でORDベースの生成物予測を改善する。
- ゼロショットのReactionT5は、データの30%で訓練したいくつかのベースラインを上回る可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。