[论文解读] LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery
本文提出 Scientific Generative Agent (SGA),一个双层框架,其中一个大型语言模型生成离散假设(表达式),可微分仿真器优化连续参数,从而实现本构定律发现和分子设计。
Large Language Models have recently gained significant attention in scientific discovery for their extensive knowledge and advanced reasoning capabilities. However, they encounter challenges in effectively simulating observational feedback and grounding it with language to propel advancements in physical scientific discovery. Conversely, human scientists undertake scientific discovery by formulating hypotheses, conducting experiments, and revising theories through observational analysis. Inspired by this, we propose to enhance the knowledge-driven, abstract reasoning abilities of LLMs with the computational strength of simulations. We introduce Scientific Generative Agent (SGA), a bilevel optimization framework: LLMs act as knowledgeable and versatile thinkers, proposing scientific hypotheses and reason about discrete components, such as physics equations or molecule structures; meanwhile, simulations function as experimental platforms, providing observational feedback and optimizing via differentiability for continuous parts, such as physical parameters. We conduct extensive experiments to demonstrate our framework's efficacy in constitutive law discovery and molecular design, unveiling novel solutions that differ from conventional human expectations yet remain coherent upon analysis.
研究动机与目标
- 推动一个统一、以知识为驱动的物理科学发现方法,超越特定领域的方法。
- 在双层优化中将LLMs与可微分仿真相结合,以搜索离散假设并优化连续参数。
- 在本构定律发现与分子设计中展示框架,以发现新颖、连贯的解。
提出的方法
- 外层搜索:LLM 基于以往的仿真结果提出离散表达式(E)和连续参数空间(Theta);内层优化:可微分仿真在 Theta 内优化连续参数(theta)以评估 E。
- 建立双层优化问题:最小化 L(y(E, Theta, theta_hat; Phi)),约束仿真有效性 G(E, Theta; Phi)≤0 且 theta_hat = argmin_theta L(y(theta; Phi, E))。
- 利用-探索 策略:调整 LLM 生成温度以平衡对已知良好解的利用与对新假说的探索。
- 两种交互模式:方程搜索(LLM 提出方程和 Theta)和实体搜索(LLM 提出结构,Theta 作为常数)。
- 可微分的内层优化:来自 Phi 相对于 theta 的梯度指导内层优化并生成对 LLM 的反馈 o。

实验结果
研究问题
- RQ1一个结合LLMs与可微分仿真的双层框架是否能够有效从运动数据中发现本构定律?
- RQ2该方法是否能通过同时优化离散结构和连续坐标来设计具有目标量子属性的分子?
- RQ3开发利用度-探索平衡如何影响物理科学中的发现效率与解的质量?
- RQ4在跨领域(本构定律发现和分子设计)上,LLMs 是否能通过最少的提示修改实现泛化?
主要发现
| 方法 | #迭代. | #Hist. | #Exploit/#Explore | 双层 | 本构定律搜索(a-d) | 分子设计(e-h) | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CoT | 1 | 5 | N/A | ✗ | 298.5 | 1462.3 | 150.0 | 384.1 | 3.0 | 32.1 | 18.6 | 6.0 |
| FunSearch | 20 | 2 | 0 / 4 | ✗ | 210.3 | 872.2 | 82.8 | 139.5 | 1.1 | 7.1 | 8.3 | 1.1 |
| Eureka | 5 | 1 | 0 / 16 | ✗ | 128.0 | 531.0 | 101.7 | 150.1 | 4.3 | 9.8 | 3.3 | 9.7e-1 |
| OPRO | 5 | 5 | 0 / 16 | ✗ | 136.2 | 508.3 | 99.2 | 128.8 | 2.4 | 9.4 | 3.1 | 1.3 |
| Ours (no bilevel) | 5 | 5 | 4 / 12 | ✗ | 3.0e-3 | 3.9e-1 | 6.6e-2 | 1.4e-12 | 4.0e-4 | 1.5e-1 | 6.1e-1 | 2.8e-5 |
| Ours (no exploit) | 5 | 5 | 0 / 16 | ✓ | 1.3e-4 | 2.1e-1 | 6.0e-2 | 1.4e-12 | 1.3e-4 | 1.1e-1 | 5.4e-1 | 3.6e-5 |
| Ours | 5 | 5 | 4 / 12 | ✓ | 5.2e-5 | 2.1e-1 | 6.0e-2 | 1.4e-12 | 1.3e-4 | 1.1e-1 | 5.4e-1 | 3.6e-5 |
- 该方法在本构定律发现和分子设计任务上优于若干基线。
- 双层优化是关键:去掉双层会降低性能,保留并结合探索则改善结果。
- 开发利用-探索平衡提高成功率和质量,1:3 的利用:探索比在挑战性任务中更好。
- 该方法发现新颖、表现良好的本构定律和分子设计,经过专家评审后具有一致性。
- GPT-4 通常优于其他骨架,尽管某些开源LLM在特定分子设计任务中表现出色。
- 消融显示联合LLM-仿真交互能逐步产生更好的提案。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。