[論文レビュー] Regression Transformer enables concurrent sequence regression and generation for molecular language modelling
回帰変換器(RT)は、回帰を条件付き系列モデリングタスクとして定式化することで、同時に系列回帰と条件付き系列生成を実行する画期的なマルチタスクフレームワークを導入した。物性予測において最先端の性能を達成し、物性駆動型分子生成においても専用モデルを上回り、単一の統一アーキテクチャを用いて小分子、タンパク質、および化学反応の分野で強力なゼロショット一般化を示した。
Despite significant progress of generative models in the natural sciences, their controllability remains challenging. One fundamentally missing aspect of molecular or protein generative models is an inductive bias that can reflect continuous properties of interest. To that end, we propose the Regression Transformer (RT), a novel method that abstracts regression as a conditional sequence modeling problem. This introduces a new paradigm of multitask language models which seamlessly bridge sequence regression and conditional sequence generation. We thoroughly demonstrate that, despite using a nominal-scale training objective, the RT matches or surpasses the performance of conventional regression models in property prediction tasks of small molecules, proteins and chemical reactions. Critically, priming the same model with continuous properties yields a highly competitive conditional generative model that outperforms specialized approaches in a substructure-constrained, property-driven molecule generation benchmark. Our dichotomous approach is facilitated by a novel, alternating training scheme that enables the model to decorate seed sequences by desired properties, e.g., to optimize reaction yield. In sum, the RT is the first report of a multitask model that concurrently excels at predictive and generative tasks in biochemistry. This finds particular application in property-driven, local exploration of the chemical or protein space and could pave the road toward foundation models in material design. The code to reproduce all experiments of the paper is available at: https://github.com/IBM/regression-transformer
研究の動機と目的
- 分子およびタンパク質生成モデルにおける連続的物性に対するインダクティブバイアスの欠如に対処すること。
- 生物化学分野における予測モデルと生成モデルの意味的ギャップを解消し、単一のアーキテクチャで回帰と条件付き生成を統合すること。
- 予測と生成の両方で優れた性能を発揮する1つのモデルを通じて、物性駆動型の局所的化学およびタンパク質空間探索を可能にすること。
- 同じモデルが共有された系列モデリング目的を用いて、回帰と生成タスクの間をスムーズに切り替えられる学習スキームの開発。
提案手法
- RTは、入力系列とターゲット数値を条件として用いることで、回帰を条件付き系列モデリング問題として定式化する。
- 事前学習中に、マスクされた数値トークンの予測(回帰)とマスクされた系列トークンの生成(生成)を交互に実行する、新規な交互学習スキームを採用する。
- 両タスクに共通するパラメータを持つ共有のTransformerエンコーダ・デコーダアーキテクチャを採用し、パラメータ効率性と共同最適化を実現する。
- MoleculeNet、Boman、TAPE、および化学反応の収率予測ベンチマークを含む複数のデータセットでファインチューニングを実施する。
- 学習済み埋め込みを用いたSMILESおよびタンパク質配列のトークン化を活用し、回帰および生成の両ストリームにマスク言語モデリング目的を適用する。
- 連続的物性値(例:溶解度、pLogP)を事前に与えることで、望ましい物性を持つ分子の条件付き生成を促進する。
実験結果
リサーチクエスチョン
- RQ11つのニューラルネットワークアーキテクチャが、分子およびタンパク質モデリングにおいて、系列回帰と条件付き系列生成の両方を効果的に実行できるか。
- RQ2回帰を条件付き系列モデリングとして定式化することで、別々のモデルと比較して一般化性能と性能が向上するか。
- RQ3統一モデルがサブストラクチャ制約下でも、専用モデルを上回る性能で物性駆動型分子生成を実現できるか。
- RQ4交互学習スキームが、回帰と生成の両タスクを同時に学習するのにどの程度効果的か。
- RQ5RTは、小分子、タンパク質、および化学反応を含む多様な生体化学分野にどの程度一般化できるか。
主な発見
- RTは、小分子、タンパク質、および化学反応の分野において、物性予測タスクで従来の回帰モデルと同等またはそれを上回る性能を発揮し、MoleculeNetデータセットで最先端の性能を達成した。
- 物性最適化ベンチマークにおいて、RTは種の構造に類似性を保ちながらpLogPを最大化する分子を生成する専用の条件付き生成モデルを上回った。
- サブストラクチャ制約下で、pLogPが3.0以上の分子を生成する成功率が92.3%に達し、ベースライン手法を15ポイント以上上回った。
- 条件付き生成タスクにおいて、RTは化学的に有効で構造的に多様な溶解度(QED)および安定性(Bomanインデックス)が望ましい分子を生成した。
- 交互学習スキームにより、モデルは回帰と生成の両タスクを効果的に学習でき、いずれのスレッドにも性能劣化が見られなかった。
- RTは自然言語タスクにも一般化可能であり、望ましいユーモラススコアを持つテキストの生成にも成功した。これは、化学分野を越えた広範な応用可能性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。