[論文レビュー] Full-Stack Domain Enhancement for Combustion LLMs: Construction and Optimization
要約: 論文は、燃焼専用コーパスを構築し、マルチステージのモデル適応(CPT、SFT、RLVR)を適用し、FlameBenchを導入して、一般的なLLMやRAGベースラインを超える最先端の燃焼推論を実現するフルスタックのワークフローを提示する。
Large language models (LLMs) in the direction of task adaptation and capability enhancement for professional fields demonstrate significant application potential. Nevertheless, for complex physical systems such as combustion science, general-purpose LLMs often generate severe hallucinations due to insufficient domain knowledge and the inability to adhere to physical conservation laws. To address this issue, we propose the first full-stack domain-enhanced LLM workflow tailored for the field of combustion science, which integrates automated domain corpus construction, incremental pre-training, instruction fine-tuning, and verifiable reward-based reinforcement learning. This workflow ensures that the model truly internalizes physical laws rather than merely learning textual statistical patterns. We also release FlameBench, a standardized evaluation benchmark specifically designed for complex reasoning tasks in combustion science. Experimental results demonstrate that the model developed in this work significantly outperforms state-of-the-art general-purpose closed-source models and traditional retrieval-augmented generation methods on combustion science reasoning tasks. This work lays a solid technical and resource foundation for the subsequent development of domain-specific scientific research agents with reliable scientific reasoning capabilities.
研究の動機と目的
- 燃焼科学におけるドメイン知識のギャップと物理法則の制約から、ドメイン特化型LLMの必要性を動機づける。
- コーパス構築、インクリメンタル事前学習、監督付き微調整(SFT)、物理的一貫性を強制する検証可能な強化学習を統合したフルスタックパイプラインを提案する。
- 燃焼ドメインの推論を標準化して評価するためのベンチマークとしてFlameBenchを導入する。
- 提案されたワークフローがドメイン推論を向上させ、RAGおよび一般LLMベースラインと比較して有利であることを示す。
提案手法
- 英語・中国語の刊行物や物理/化学リソースから燃焼専用コーパスを大規模に構築(約5BドメインToken、総Token約30B)
- 混合コーパス上で継続的前訓練(CPT)を実施し、ドメイン知識を注入すると同時に一般的言語能力を保持する
- 指示とドメイン固有の推論パターンを整合させるため、2段階の監督付き微調整(SFT-General、SFT-Combustion)を適用する
- KL制約下で検証可能な報酬を用いた強化学習(RLVR)により、物理的に整合的な多パラメータ推論を改善する
- 436問のドメイン特化質問でFlameBenchを開発し、ドメイン知識と制約付き推論を評価する
- エンドツーエンドのトレーニング(CPT–SFT–RLVR)を、CPT、SFT、RAGベースライン、および一般LLMsと比較する

実験結果
リサーチクエスチョン
- RQ1フルスタックのドメイン強化ワークフローは、一般ドメイン前訓練を超えてLLMの燃焼専門知識保持を改善できるか。
- RQ2マルチステージ適応(CPT、SFT、RLVR)は、物理的一貫性を強制し、燃焼タスクの多物理推論を改善するか。
- RQ3エンドツーエンドのドメイン適応モデルは、RAGベースのアプローチや他のクローズドソースモデルと比較して燃焼特定ベンチマークでどの程度の性能を示すか。
主な発見
| Model Group | Accuracy (%) |
|---|---|
| Qwen3-8B-Base | 26.8 |
| CPT | 33.3 |
| SFT-General | 33.5 |
| SFT-Combustion | 35.1 |
| RLVR-Opt | 43.8 |
- CPTはベースラインに対して大幅な改善をもたらし、FlameBenchの精度を26.8%から33.3%へ向上させた。
- SFT-GeneralはCPTをわずかに上回る利得を提供する一方、SFT-Combustionは精度を35.1%へ引き上げた。
- RLVR最適化は精度を43.8%へ大幅に改善し、出力長を安定化させ、低エントロピー方針下で平均報酬を高めた。
- RLVR-Optは最良のRAGベースライン(RAG + GLM-4)を11.71ポイント上回ってFlameBenchで優位。
- SFT-CombustionとRLVRはクローズドソースモデルに対して競争力のある性能を示し、GLM-4の一部分野に近づく。
- RAG手法と比較して、RLVR-Optは精度を高くし、検索オーバーヘッドを排除して、内部化されたドメイン知識と推論力が強化されている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。