[論文レビュー] A Multi-task Large Reasoning Model for Molecular Science
この論文は、マルチタスクの大規模推論モデルを、多専門家アーキテクチャと思考連鎖(chain-of-thought)推論を組み合わせ、強化学習で強化した手法を提示し、データ効率の良い学習で分子科学領域のマルチタスク性能を高める。
Advancements in artificial intelligence for molecular science are necessitating a paradigm shift from purely data-driven predictions to knowledge-guided computational reasoning. Existing molecular models are predominantly proprietary, lacking general molecular intelligence and generalizability. This underscores the necessity for computational methods that can effectively integrate scientific logic with deep learning architectures. Here we introduce a multi-task large reasoning model designed to emulate the cognitive processes of molecular scientists through structured reasoning and reflection. Our approach incorporates multi-specialist modules to provide versatile molecular expertise and a chain-of-thought (CoT) framework enhanced by reinforcement learning infused with molecular knowledge, enabling structured and reflective reasoning. Systematic evaluations across 10 molecular tasks and 47 metrics demonstrate that our model achieves an average 50.3% improvement over the base architecture, outperforming over 20 state-of-the-art baselines, including ultra-large-parameter foundation models, despite using significantly fewer training data and computational resources. This validates that embedding explicit reasoning mechanisms enables high-efficiency learning, allowing smaller-scale models to surpass massive counterparts in both efficacy and interpretability. The practical utility of this computational framework was validated through a case study on the design of central nervous system (CNS) drug candidates, illustrating its capacity to bridge data-driven and knowledge-integrated approaches for intelligent molecular design.
研究の動機と目的
- 化学知識を深層学習と統合し、純粋な予測を超える分子タスクへ適用する動機付け。
- 化学ロジックをCoT推論に埋め込むマルチスペシャリスト・タスク適応フレームワークの開発。
- データ相乗効果とスペシャリスト相乗効果を強化学習と組み合わせ、データ効率の高い学習を実現。
- 限定的なトレーニングデータと資源で、10件の分子タスクにおいて優れたマルチタスク性能を示す。
- 生成、予測、合成を結ぶCNS薬設計のケーススタディを通じて実用性を示す。
提案手法
- 事前学習済みLLM(DeepSeek-7Bベース)内にマルチスペシャリスト層を構築し、タスクタイプ別に8つのスペシャリストグループを調整するルーターを配置。
- 予測スペシャリストを93Kの指示データセットで、推論(CoT)スペシャリストを3.5Kの高品質CoTデータセットで訓練。
- 効率的なパラメータ更新を可能にするLow-Rank Adaptation(LoRA)を組み込む。
- 化学的妥当性と推論を整合させるため、タスク固有の分子科学報酬を用いた強化学習を適用。
- 3段階の訓練を実施:74.5Kデータでの指示微調整による表現学習、3.6KデータでのCoT微調整、知識調整RL。
- データ相乗効果(関連タスクの共同訓練)とスペシャリスト相乗効果(予測スペシャリストと推論スペシャリストの協調)を活用して推論を強化。

実験結果
リサーチクエスチョン
- RQ1多様なタスクを超える国際的最先端ベースラインを、化学知識を思考連鎖推論に埋め込むことで上回ることができるか。
- RQ2データ相乗効果とスペシャリスト相乗効果が分子マルチタスク性能と推論整合性に与える影響は何か。
- RQ3知識誘導報酬を用いた強化学習が予測スペシャリストと推論スペシャリストの一貫性にどのように影響するか。
- RQ4 CNS薬設計のシナリオにおいて、小型で知識を組み込んだモデルで高精度と解釈可能な推論を実現可能か。
主な発見
- ベースアーキテクチャに対する10分野の分子タスクでの平均改善率は50.3%。
- 20を超える最先端ベースラインを上回り、 ultra-largeパラメータモデルを含む一方で、トレーニングデータと資源を抑制。
- 強力なマルチタスクモデルLLaSMolと比較してタスク指標で約6%の改善を示す。
- 思考連鎖推論とCNS薬設計のケーススタディを通じて堅牢な推論解釈性を示す。
- データ相乗効果とスペシャリスト相乗効果、CoT RLは、指示のみまたはCoTのみの変種と比較して性能を大幅に向上させる。
- リピドリフィシティ(脂溶性)をタスクとして、モデルが基準よりわずかに劣ることが分かり、専門化の限界を示唆。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。