Skip to main content
QUICK REVIEW

[論文レビュー] SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs

Yadi Cao, Sicheng Lai|arXiv (Cornell University)|Mar 11, 2026
Scientific Computing and Data Management被引用数 0
ひとこと要約

SimulCostは、12のシミュレーターに対して brute-forceスキャンとベイズ最適化を評価し、成功率と計算コストの両方を測定することで、物理シミュレーションのパラメータ調整におけられるコスト認識をベンチマークします。

ABSTRACT

Evaluating LLM agents for scientific tasks has focused on token costs while ignoring tool-use costs like simulation time and experimental resources. As a result, metrics like pass@k become impractical under realistic budget constraints. To address this gap, we introduce SimulCost, the first benchmark targeting cost-sensitive parameter tuning in physics simulations. SimulCost compares LLM tuning cost-sensitive parameters against traditional scanning approach in both accuracy and computational cost, spanning 2,916 single-round (initial guess) and 1,900 multi-round (adjustment by trial-and-error) tasks across 12 simulators from fluid dynamics, solid mechanics, and plasma physics. Each simulator's cost is analytically defined and platform-independent. Frontier LLMs achieve 46--64% success rates in single-round mode, dropping to 35--54% under high accuracy requirements, rendering their initial guesses unreliable especially for high accuracy tasks. Multi-round mode improves rates to 71--80%, but LLMs are 1.5--2.5x slower than traditional scanning, making them uneconomical choices. We also investigate parameter group correlations for knowledge transfer potential, and the impact of in-context examples and reasoning effort, providing practical implications for deployment and fine-tuning. We open-source SimulCost as a static benchmark and extensible toolkit to facilitate research on improving cost-aware agentic designs for physics simulations, and for expanding new simulation environments. Code and data are available at https://github.com/Rose-STL-Lab/SimulCost-Bench.

研究の動機と目的

  • LLM支援物理シミュレーションにおけるコスト認識評価の必要性を動機付ける。
  • SimulCostを、成功率とツールコスト効率を同時に測定する最初のベンチマークとして導入する。
  • 再現性のあるコスト追跡フレームワークを備えた多様で拡張可能なツールキットを提供する(12のシミュレーターを含む)。
  • 最先端のLLMを brute-forceスキャンとベイズ最適化と比較する。
  • 知識移転、文脈内学習、推論努力に関するアブレーションを提供し、導入を指針する。

提案手法

  • 各シミュレーターのコストをFLOPsベースのツールコストとして定義する(EPOCHは壁時計時間を使用)。
  • 単回推論モード(一回の初期推定)と多回推論モード(試行錯誤)を評価する。
  • 流体力学、固体力学、プラズマ物理学にまたがる12のソルバーを横断して、2,916件の単回ル_taskと1,900件の多回ル_taskを厳選する。
  • 意味のあるスキャンベースラインとコスト比較を可能にするため、調整を個別のパラメータに限定する。
  • 標準化APIとHydraベースの構成を備えた拡張可能なツールボックス(simulcost-tools)を提供し、再現と拡張を容易にする。
  • 多回調整のベースラインとしてベイズ最適化を含め、ICLと推論努力のアブレーションを行う。
Figure 1 : Overview of SimulCost . Our benchmark evaluates LLM agents on cost-sensitive parameter tuning across 12 physics simulators spanning fluid dynamics, solid mechanics, and plasma physics. Given a simulation task, tuning mode, and accuracy requirement, the LLM proposes tunable parameters in e
Figure 1 : Overview of SimulCost . Our benchmark evaluates LLM agents on cost-sensitive parameter tuning across 12 physics simulators spanning fluid dynamics, solid mechanics, and plasma physics. Given a simulation task, tuning mode, and accuracy requirement, the LLM proposes tunable parameters in e

実験結果

リサーチクエスチョン

  • RQ1LLMは多様なシミュレーターに跨るコスト認識パラメータ調整でどのような性能を示すか?
  • RQ2単回と多回の調整における精度要件と計算コストのトレードオフはどうなるか?
  • RQ3知識移転、文脈内学習、推論努力はコスト効率の良い調整に意味ある改善をもたらすか?
  • RQ4このコスト認識設定におけるベイズ最適化はLLMベースのアプローチとどのように比較されるか?
  • RQ5ツールキットは新しいソルバーや環境へ一般化しつつ、再現性のあるコスト追跡を維持できるか?

主な発見

  • フロンティアLLMは単回モードで46–64%の成功率を達成し、高精度要件では35–54%へ低下する。
  • 多回モードは成功を71–80%に引き上げるが、LLMは brute-forceスキャンより1.5–2.5×遅い。
  • 共通パラメータはソルバー固有のパラメータより調整が容易で、パラメータ間の相関が小さく、移転の点で限界が示唆される。
  • 文脈内学習は単回の成功を15–25%向上させるが、多回探索を劣化させる。
  • BO-GPは総合的な成功と高いソルバー間分散を一致させるが、LLMは低精度要求でコスト効率の利点を示す。
  • 推論努力全体は有意な改善を示さない。
((a)) Success Rate
((a)) Success Rate

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。