QUICK REVIEW

[논문 리뷰] Full-Stack Domain Enhancement for Combustion LLMs: Construction and Optimization

Quanjia Xiao, Weimin Ouyang|arXiv (Cornell University)|2026. 02. 27.

Machine Learning in Materials Science인용 수 0

한 줄 요약

논문은 일반 LLM 및 RAG 기준선을 넘어서는 최신 연소 추론을 달성하기 위해 연소 특화 말뭉치를 구성하고, 다단계 모델 적응(CPT, SFT, RLVR)을 적용하며, FlameBench를 도입하는 풀스택 워크플로우를 제시한다.

ABSTRACT

Large language models (LLMs) in the direction of task adaptation and capability enhancement for professional fields demonstrate significant application potential. Nevertheless, for complex physical systems such as combustion science, general-purpose LLMs often generate severe hallucinations due to insufficient domain knowledge and the inability to adhere to physical conservation laws. To address this issue, we propose the first full-stack domain-enhanced LLM workflow tailored for the field of combustion science, which integrates automated domain corpus construction, incremental pre-training, instruction fine-tuning, and verifiable reward-based reinforcement learning. This workflow ensures that the model truly internalizes physical laws rather than merely learning textual statistical patterns. We also release FlameBench, a standardized evaluation benchmark specifically designed for complex reasoning tasks in combustion science. Experimental results demonstrate that the model developed in this work significantly outperforms state-of-the-art general-purpose closed-source models and traditional retrieval-augmented generation methods on combustion science reasoning tasks. This work lays a solid technical and resource foundation for the subsequent development of domain-specific scientific research agents with reliable scientific reasoning capabilities.

연구 동기 및 목표

도메인 지식의 격차 및 물리적 제약으로 인해 연소 과학에서 도메인 특화 LLM의 필요성을 제시한다.
말뭉치 구성, 점진적 사전 학습, 감독 미세조정, 그리고 물리적 일관성을 보장하기 위한 검증 가능한 강화 학습을 통합하는 풀스택 파이프라인을 제안한다.
연소 도메인 추론을 평가하기 위한 표준화된 벤치마크로 FlameBench를 도입한다.
제안된 워크플로우가 도메인 추론에서 우수한 성능을 보이고, RAG 및 일반 LLM 기반선과 비교해 유의하게 우수함을 입증한다.

제안 방법

영어/중국어 게시물 및 물리/화학 자원으로부터 대규모 연소 특화 말뭉치(~30B 총 토큰 내에서 약 5B 도메인 토큰)를 구성한다.
혼합 말뭉치에서 지속적 사전 학습(CPT)을 수행하여 도메인 지식을 주입하되 일반 언어 능력을 보존한다.
지시문 정렬 및 도메인 특화 추론 패턴을 맞추기 위해 두 단계의 감독 미세조정(SFT-General, SFT-Combustion)을 적용한다.
KL 제약 하에 검증 가능한 보상(RLVR)을 활용하여 물리적으로 일관된 다변수 추론을 향상시킨다.
도메인 지식 및 제약된 추론을 평가하기 위해 436개의 도메인 특화 질문으로 FlameBench를 개발한다.
CPT–SFT–RLVR를 포함한 엔드투엔드 학습을 CPT, SFT, RAG 기반선, 일반 LLM 등과 비교한다.

Figure 1: Dataset token distribution by category.

실험 결과

연구 질문

RQ1전체 스택 도메인 강화를 통한 워크플로가 일반 도메인 사전 학습을 넘어 연소 특화 지식 보유를 LLM에서 향상시킬 수 있는가?
RQ2다단계 적응(CPT, SFT, RLVR)이 물리적 일관성을 보장하고 연소 작업에서 다-물리 추론을 향상시키는가?
RQ3연소 특화 벤치마크에서 엔드-투-엔드 도메인 적응 모델이 RAG 기반 접근법 및 다른 폐쇄형 소스 모델에 비해 어떻게 수행하는가?

주요 결과

모델 그룹	정확도 (%)
Qwen3-8B-Base	26.8
CPT	33.3
SFT-General	33.5
SFT-Combustion	35.1
RLVR-Opt	43.8

CPT는 기본값 대비 상당한 향상을 보이며 FlameBench 정확도를 26.8%에서 33.3%로 증가시켰다.
SFT-General은 CPT에 비해 미미한 이득을 제공하고, SFT-Combustion은 정확도를 35.1%로 올린다.
RLVR 최적화는 정확도를 43.8%로 크게 향상시키며 출력 길이를 안정화하고 저-엔트로피 정책에서 평균 보상을 더 높인다.
RLVR-Opt는 FlameBench에서 최상의 RAG 기반선(RAG + GLM-4)을 11.71个百分点 상회한다.
SFT-Combustion과 RLVR은 폐쇄형 모델에 비해 경쟁력 있는 성능을 가능하게 하며 일부 하위 분야에서 GLM-4에 근접한다.
RAG 방법과 비교할 때 RLVR-Opt가 더 높은 정확도를 달성하고 검색 오버헤드를 제거하여 내부화된 도메인 지식과 추론이 더 강하다는 것을 시사한다.

Figure 2: Data processing pipeline for the combustion-specific pre-training corpus.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.