Skip to main content
QUICK REVIEW

[論文レビュー] Teaching and Evaluating LLMs to Reason About Polymer Design Related Tasks

Dikshya Mohanty, Mohammad Saqib Hasan|arXiv (Cornell University)|Jan 22, 2026
Machine Learning in Materials Science被引用数 0
ひとこと要約

PolyBenchは知識強化推論トレースを備えた大規模な高分子設計ベンチマークであり、PolyBench上での小規模LM(7B-14B)のファインチューニングは高い性能を発揮し、PolyBenchと外部高分子ベンチマークのいくつかのベースラインを上回る。

ABSTRACT

Research in AI4Science has shown promise in many science applications, including polymer design. However, current LLMs prove ineffective on this problem space because: (i) most models lack polymer-specific knowledge (ii) existing aligned models lack coverage of knowledge and capabilities relevant to polymer design. Addressing this, we introduce PolyBench, a large scale training and test benchmark dataset of more than 125K polymer design related tasks, leveraging a knowledge base of 13M+ data points obtained from experimental and synthetic sources to ensure broad coverage of polymers and their properties. For effective alignment using PolyBench, we introduce a knowledge-augmented reasoning distillation method that augments this dataset with structured CoT. Furthermore, tasks in PolyBench are organized from simple to complex analytical reasoning problems, enabling generalization tests and diagnostic probes across the problem space. Experiments show that small language models (SLMs), of 7B to 14B parameters, trained on PolyBench data outperform similar sized models, and even closed source frontier LLMs on PolyBench test dataset while demonstrating gains on other polymer benchmarks as well.

研究の動機と目的

  • 実験データに基づく大規模で実地真実の高分子設計タスクベンチマークを作成する。
  • 基礎からエンドツーエンド設計までのタスクを整理し、多目的推論と一般化のテストを行う。
  • 信頼できる推論トレースを生成する知識強化蒸留パイプラインを開発する。
  • オープンソースおよび最先端のLLMを評価し、PolyBench訓練によるギャップと改善点を特定する。
  • モデル推論の技能ギャップと構成性ギャップを識別する診断を提供する。

提案手法

  • 実験データおよびRDKit由来データを用いて125k件超の高分子設計タスクを含むPolyBenchを構築する。
  • 構造理解から設計/合成までの六つのカテゴリにタスクを整理する。
  • SME情報を用いたプロンプトと構造化CoTを用いた知識強化蒸留により推論トレースを地盤づける。
  • 推論トレースの品質を保証する自動化と人間による検証を行う。
  • PolyBenchの訓練/開発データで7B-14BモデルをQLoRAでファインチューニングし、ベースラインおよび外部ベンチマークと比較評価する。
  • CoTがタスク全体の性能に与える影響を評価し、エラーメ diagnosticsを実施する。
Figure 1: Example from PolyBench with sub-tasks. The central prompt requires jointly satisfying multiple constraints (highlighted in green), spanning reaction/synthesis feasibility , property targets , and functional/structural constraints . SubQuestions (SubQ) shows with associated skill tags (e.g.
Figure 1: Example from PolyBench with sub-tasks. The central prompt requires jointly satisfying multiple constraints (highlighted in green), spanning reaction/synthesis feasibility , property targets , and functional/structural constraints . SubQuestions (SubQ) shows with associated skill tags (e.g.

実験結果

リサーチクエスチョン

  • RQ1PolyBenchはベースラインモデルと比較して高分子設計タスクにおけるLLMの性能を向上させるか?
  • RQ2知識強化蒸留と構造化CoTは推論トレースと最終回答を改善するか?
  • RQ3PolyBenchで訓練されたモデルは未知の高分子や外部高分子ベンチマークにどの程度一般化するか?
  • RQ4高分子設計推論の構成性ギャップとは何で、PolyBenchの診断でそれを明らかにできるか?
  • RQ5CoTは多目的高分子設計タスクと直接的パターンマッチングの影響をどう分けるか?

主な発見

  • PolyBench訓練済みモデルはPolyBenchテストセットのタスク全般で同規模のベースラインを上回る。
  • PolyBench訓練中のChain-of-Thought(CoT)の追加は大規模モデルで約11%の平均改善をもたらす。
  • ドメイン整合の化学LLMは高分子設計タスクで劣るため、高分子特化の監督が必要である。
  • PolyBenchモデルは外部ベンチマークでも高い性能を示し、既製モデルを上回ることがあり、クローズドソースの最先端モデルにも近づく。
  • 人間評価では知識強化CoTトレースが教師CoTよりもより完全で正確かつ関連性が高いと示され、トレース品質を検証した。
  • 診断スイートは、モデルがサブ回答を再現できても制約下でそれらを組み立てるのが難しい構成性ギャップを明らかにする。
Figure 2: PolyData Creation Pipeline . We aggregate data from open-source databases covering $13$ m polymers, standardize notations and properties based on SMEs’ inputs, and augment with RDKit -computed features. The data is split into train/dev/test sets with non-overlapping polymers to ensure out-
Figure 2: PolyData Creation Pipeline . We aggregate data from open-source databases covering $13$ m polymers, standardize notations and properties based on SMEs’ inputs, and augment with RDKit -computed features. The data is split into train/dev/test sets with non-overlapping polymers to ensure out-

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。