[論文レビュー] Grounding LLMs in Scientific Discovery via Embodied Actions
EmbodiedAct grounds LLMs in embodied actions with a tight perception-execution loop in MATLAB, enabling continuous monitoring and autonomous correction for reliable long-horizon scientific simulations and modeling.
Large Language Models (LLMs) have shown significant potential in scientific discovery but struggle to bridge the gap between theoretical reasoning and verifiable physical simulation. Existing solutions operate in a passive "execute-then-response" loop and thus lacks runtime perception, obscuring agents to transient anomalies (e.g., numerical instability or diverging oscillations). To address this limitation, we propose EmbodiedAct, a framework that transforms established scientific software into active embodied agents by grounding LLMs in embodied actions with a tight perception-execution loop. We instantiate EmbodiedAct within MATLAB and evaluate it on complex engineering design and scientific modeling tasks. Extensive experiments show that EmbodiedAct significantly outperforms existing baselines, achieving SOTA performance by ensuring satisfactory reliability and stability in long-horizon simulations and enhanced accuracy in scientific modeling.
研究の動機と目的
- プロセス指向の科学タスクにおける理論的推論と検証可能な物理的検証のギャップを埋める。
- 実行と継続的知覚を結ぶ能動的具現化エージェントへと既存の科学ソフトウェアを変換する。
- ランタイム知覚とホットフィックス指向の再計画が長期的なシミュレーションにおける信頼性・安定性・精度を向上させることを示す。
- MATLABとオープンソースのバックエンド、複数のモデルファミリー全体での一般化を示す。
- 科学系LLMアプリケーションの厳密な知覚-行動ループの再利用可能なフレームワークとプロトコルを提供する。
提案手法
- 執行可能なシミュレーションプリミティブへ意図を結びつける閉ループ認知アーキテクチャとしてEmbodiedActを提案する。
- Strategy Planner、Primitive Generator、Runtime Perception Engine、Reflective Decision Makerの4モジュールでLLMを grounding する。
- Asynchronous State Synchronization Protocolを用いてシミュレーション環境からのリアルタイム、ストリーミング観測を維持する。
- 高位の科学的意図をソフトウェア固有のプリミティブ(例:MATLABソルバー、Simulinkグラフ操作)へ、トポロジー推論を介して翻訳する。
- シミュレーション軌跡と中間状態のライブ監視を可能にし、異常を検出して自律的なホットフィックス修復を引き起こす。
- 知覚主導のホットフィックスを高速な内ループ、物理情報に基づくフィードバックによる再計画を遅い外ループで案内する二重ループ制御を組み込む。

実験結果
リサーチクエスチョン
- RQ1リアルタイム知覚を持つ具現化エージェントは、プロセス指向の科学タスクにおいて従来のコードとしてのアクションLLMエージェントを上回ることができるか。
- RQ2ランタイム知覚は、工学と物理科学の長期的なシミュレーションにおける信頼性・安定性・精度にどのような影響を与えるか。
- RQ3ドメイン特化のプリミティブとトポロジー認識の実行は、汎用コード生成と比較して解法の質を向上させるか。
- RQ4知覚-行動ループはMATLABとオープンソースのシミュレーションバックエンド間の一般化にどのような影響を与えるか。
- RQ5内側のホットフィックスループと外側のリフレクティブプランナーという二重ループアーキテクチャは、複雑系において測定可能な利益をもたらすか。
主な発見
- EmbodiedActはEngDesignとSciBench-107のベンチマークで最先端の性能を達成し、複数のモデルファミリーにわたり生成ベースおよびコードベースのベースラインを上回る。
- 能動的なランタイム知覚により中間状態のリアルタイム監視とホットフィックスの発動が可能となり、長期的なシミュレーションの信頼性を向上させ、故障モードを低減する。
- ドメイン特化のプリミティブと知覚を考慮した意図のシミュレーションアクションへの翻訳は、特に数値的に敏感な分野( MathematicsやPhysics)で精度を高める。
- バックエンド(MATLABとオープンソース)を跨いだ一般化が可能で、継続的なパフォーマンス優位性を示し、環境横断適用性が堅牢である。
- オープンソースモデルはEmbodiedActと組み合わせると大幅に性能が向上し、プロプリエタリモデルとの差を縮め、このフレームワークの支えとなる構造の強さを示す。
- アブレーション研究は、知覚の実行が性能の鍵であることを確認し、知覚なしのバリアントはCodeActの性能に近づくに留まる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。