QUICK REVIEW

[論文レビュー] Re-evaluating Retrosynthesis Algorithms with Syntheseus

Krzysztof Maziarz, Austin Tripp|arXiv (Cornell University)|Oct 30, 2023

Machine Learning in Materials Science被引用数 8

ひとこと要約

この論文は、単一步推論と多步推論の一貫した評価のための syntheseus ベンチマークライブラリを導入し、それを用いて既存の手法を再評価することで、慎重な評価の下でモデルのランキングが変化することを明らかにします。

ABSTRACT

Automated Synthesis Planning has recently re-emerged as a research area at the intersection of chemistry and machine learning. Despite the appearance of steady progress, we argue that imperfect benchmarks and inconsistent comparisons mask systematic shortcomings of existing techniques, and unnecessarily hamper progress. To remedy this, we present a synthesis planning library with an extensive benchmarking framework, called syntheseus, which promotes best practice by default, enabling consistent meaningful evaluation of single-step models and multi-step planning algorithms. We demonstrate the capabilities of syntheseus by re-evaluating several previous retrosynthesis algorithms, and find that the ranking of state-of-the-art models changes in controlled evaluation experiments. We end with guidance for future works in this area, and call the community to engage in the discussion on how to improve benchmarks for synthesis planning.

研究の動機と目的

リトポネシスの評価に一貫性のないベンチマークと比較により、評価実践の改善を動機付ける。
デフォルトでベストプラクティスを強制する標準化された、拡張可能な評価フレームワーク（syntheseus）を提供する。
慎重でエンドツーエンドの評価の下でランキングがどのように変化するかを示すため、既存の単一步・多步リトポネシス手法を再評価する。
系統的分析に基づく今後のリトポネシス研究と評価のためのガイダンスを提供する。

提案手法

syntheseus をリトポネシスのモジュール式でモデルに依存しない評価プラットフォームとして導入する。

実験結果

リサーチクエスチョン

RQ1現在の単一步および多步リトポネシス評価実践における落とし穴は何か。
RQ2標準化されたベンチマークパイプラインはリトポネシスモデルの報告性能とランキングにどのように影響するか。
RQ3CASP システムの公正なエンドツーエンド評価を実現するために、業界はどのようなベストプラクティスを採用すべきか。
RQ4syntheseus で再評価することで、以前報告された結果とランキングを修正または変更できるか。
RQ5リトポネシス評価の今後の開発に対してどのような指針を提供できるか。

主な発見

Syntheseus はリトポネシス手法の一貫したエンドツーエンド評価を実現し、先行文献と比べてモデルのランキングに変化が生じることを示す。
再評価は、一定の後処理、デデュプリケーション、妥当性検証を通じて、文献よりも一部の報告指標が改善されることを示す。
単一步モデルは速度-精度のトレードオフで異なり、k が高いときは変換ベースのグラフ出力が純粋なデコーダー型アプローチを上回ることが多い。
多步探索の結果は固定された単一步モデルと評価設定に依存するため、公正なベースラインと制御された比較の必要性を強調する。
Recall に基づく指標の限界を浮き彫りにし、推論時間と多様性の報告を推奨して、エンドツーエンドの CASP パフォーマンスをより適切に反映する。
ベストプラクティスには、精度重視の評価、出力のデデュプリケーション、分子の妥当性検証、モデル呼び出しのキャッシュ化、専門家による定性的評価の組み込みが含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。