[論文レビュー] RetroReasoner: A Reasoning LLM for Strategic Retrosynthesis Prediction
RetroReasoner は、化学者の結合断裂戦略に沿った推論対応の LLM を逆合成用に導入し、合成的根拠データで訓練され、往復報酬で強化されることで、予測される反応物の実現可能性と多様性を向上させる。
Retrosynthesis prediction is a core task in organic synthesis that aims to predict reactants for a given product molecule. Traditionally, chemists select a plausible bond disconnection and derive corresponding reactants, which is time-consuming and requires substantial expertise. While recent advancements in molecular large language models (LLMs) have made progress, many methods either predict reactants without strategic reasoning or conduct only a generic product analysis, rather than reason explicitly about bond-disconnection strategies that logically lead to the choice of specific reactants. To overcome these limitations, we propose RetroReasoner, a retrosynthetic reasoning model that leverages chemists' strategic thinking. RetroReasoner is trained using both supervised fine-tuning (SFT) and reinforcement learning (RL). For SFT, we introduce SyntheticRetro, a framework that generates structured disconnection rationales alongside reactant predictions. In the case of RL, we apply a round-trip accuracy as reward, where predicted reactants are passed through a forward synthesis model, and predictions are rewarded when the forward-predicted product matches the original input product. Experimental results show that RetroReasoner not only outperforms prior baselines but also generates a broader range of feasible reactant proposals, particularly in handling more challenging reaction instances.
研究の動機と目的
- explicit な戦略的推論を化学者の結合断裂戦略に合わせて逆合成予測の動機付けを行う。
- StructuredReasoning を生成するデータ生成フレームワーク(SyntheticRetro)を開発し、反応物予測とともに推論を構造化する。
- SyntheticRetro データでの教師ありファインチューニング(SFT)を通じて RetroReasoner を訓練し、往復報酬を用いた強化学習(RL)で洗練する。
- 難易度の高い反応テンプレートや希少な反応タイプに対して、精度とより広く現実的な反応物提案の集合を改善していることを示す。
提案手法
- SyntheticRetro は StructuredReasoning データ(R1–R4)とリンクテキストを生成し、化学者の戦略を推論データへと転換する。
- RetroReasoner は Qwen3-8B モデルから初期化され、2 段階で訓練される:SyntheticRetro ベースのターゲットに対する SFT と、往復正確さ報酬を用いた RL。
- RL は GRPO(Group Relative Policy Optimization)と前方合成検証器を用いて、元の生成物を再現する反応物セットを報酬する。
- 前方モデル検証器は提案された反応物から生成物を予測し、ポリシー更新のための往復報酬を計算する。
- 評価には、貪欲法およびサンプリング指標を含み、提案された反応経路の実現可能性と多様性を重視する。
実験結果
リサーチクエスチョン
- RQ1 explícit な化学者風の戦略推論は、純粋な予測LLM に比べて逆合成予測を改善するか?
- RQ2SyntheticRetro 推論データの追加と往復 RL の採用により、より広く現実的な反応物提案が得られるか?
- RQ3 RetroReasoner の性能と多様性は、希少なテンプレートや希少な原子/トークンの事例でどうなるか?
主な発見
| モデル | Exact@1 | Round-trip@1 | Exact@100 | Round-trip@100 | 実現可能性の比率 | テンプレート多様性 |
|---|---|---|---|---|---|---|
| Prediction-Only (SFT) | 0.482 | 0.784 | 0.678 | 0.950 | 0.774 | 2.562 |
| Prediction-Only (RL) | 0.486 | 0.802 | 0.662 | 0.936 | 0.785 | 2.324 |
| RetroReasoner (SFT) | 0.512 | 0.812 | 0.734 | 0.944 | 0.765 | 3.898 |
| RetroReasoner (RL) | 0.526 | 0.826 | 0.724 | 0.952 | 0.786 | 3.186 |
- RetroReasoner は、厳密一致と往復指標の双方でベースラインを上回り、Exact@100 およびテンプレートの多様性に顕著な改善を示す。
- SFT の後に RL を適用すると正確さが向上し、現実的な反応物空間が広がる一方、RL は推論の多様性を現実的な領域に集中させる。
- RetroReasoner は希少テンプレートや希少な原子/トークンの事例を含む難データセットで堅牢な性能を示す。
- Structured reasoning の各ステップ間にリンクテキストを組み込むと、厳密一致と多様性が大幅に向上する。
- 往復報酬は現実的な反応物空間を広げるが、厳密一致指標を高く保つには往復フレームワークが必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。