[论文解读] Physics-Guided Machine Learning for Scientific Discovery: An Application in Simulating Lake Temperature Profiles
本文提出物理引导的递归神经网络(PGRNN),将能源守恒和基于物理的模型与 LSTM 相结合,用于预测湖泊温度,在数据有限的情况下实现更高的准确性并确保物理一致性。
Physics-based models of dynamical systems are often used to study engineering and environmental systems. Despite their extensive use, these models have several well-known limitations due to simplified representations of the physical processes being modeled or challenges in selecting appropriate parameters. While-state-of-the-art machine learning models can sometimes outperform physics-based models given ample amount of training data, they can produce results that are physically inconsistent. This paper proposes a physics-guided recurrent neural network model (PGRNN) that combines RNNs and physics-based models to leverage their complementary strengths and improves the modeling of physical processes. Specifically, we show that a PGRNN can improve prediction accuracy over that of physics-based models, while generating outputs consistent with physical laws. An important aspect of our PGRNN approach lies in its ability to incorporate the knowledge encoded in physics-based models. This allows training the PGRNN model using very few true observed data while also ensuring high prediction accuracy. Although we present and evaluate this methodology in the context of modeling the dynamics of temperature in lakes, it is applicable more widely to a range of scientific and engineering disciplines where physics-based (also known as mechanistic) models are used, e.g., climate science, materials science, computational chemistry, and biomedicine.
研究动机与目标
- 通过将基于物理的模型与机器学习相结合,推动对工程/环境系统建模的改进。
- 解决纯物理模型(偏差、参数标定)和纯黑箱 ML(物理不一致、对数据的需求大)的问题。
- 开发一个框架(PGRNN),在利用数据驱动学习来预测湖泊各深度和时间的温度的同时,保持物理定律。
- 通过使用合成的 GLM 输出进行基于物理的预训练,展示数据高效的训练。
- 在 Mendota 湖上验证该方法,评估预测准确性与物理一致性。
提出的方法
- 使用基于 LSTM 的 RNN 来建模跨深度的日温度动态,采用将深度作为输入特征的全局模型。
- 通过引入能量流约束来纳入能量守恒,将预测温度与进入/离开的热通量以及湖泊能量联系起来,并在损失中加入物理约束惩罚:L = L_RNN + lambda_EC * L_EC。
- 从温度、层面积、密度和厚度计算湖热能 U_t,并在无冰期通过带阈值 tau_EC 的 ReLU 惩罚来强制 Delta U_t ≈ F_in − F_out。
- 在由通用 GLM 生成的合成数据上对 PGRNN 进行预训练,以引入物理真实感并改进初始化,然后在有限观测数据上进行微调。
- 在不同的训练数据比例下进行评估以测试数据效率,并与 GLM 和标准 RNN 基线进行比较。
- 在 Lake Mendota 上实现并测试,使用 21 个隐藏单元,深度以 0.5 m 离散化,并采用特定超参数(tau_EC = 24 W/m^2, lambda_EC = 0.01, learning rate 0.005)。
实验结果
研究问题
- RQ1在数据稀缺时,物理引导的 RNN 能否在湖泊温度预测方面优于传统物理模型和纯 ML?
- RQ2在 RNN 中强制能量守恒是否会在不牺牲准确性的前提下提高物理一致性?
- RQ3用合成的基于物理的仿真进行预训练是否能降低准确预测所需的数据量?
- RQ4PGRNN 在湖泊系统中跨深度和季节的泛化能力如何?
- RQ5该方法是否可应用于湖泊温度之外的其他物理驱动领域?
主要发现
| Method | 0% | 0.2% | 2% | 20% | 100% |
|---|---|---|---|---|---|
| GLM | 2.950( ± NA ) | 2.616( ± 0.499 ) | 2.422( ± 0.423 ) | 2.318( ± 0.368 ) | 1.836( ± NA ) |
| RNN | - | 4.615( ± 0.173 ) | 2.311( ± 0.240 ) | 1.531( ± 0.083 ) | 1.489( ± 0.091 ) |
| RNN EC | - | 4.107( ± 0.181 ) | 2.149( ± 0.163 ) | 1.489( ± 0.115 ) | 1.471( ± 0.077 ) |
- PGRNN(带能量守恒的 RNN)在观测数据有限时,始终优于普通 RNN。
- 仅用 20% 的观测数据,RGRNN EC 的 RMSE 可与使用 100% 数据进行校准的 GLM 相当或更好,且 20% RNN EC 超过完全校准的 GLM。
- 能量一致性训练降低了能量通量平衡与湖泊能量变化之间的差异,相较于 GLM 和普通 RNN。
- 使用合成的 GLM 数据进行预训练使在非常少量的真实观测下也能达到高精度,并帮助将权重初始化到更接近最优解的位置。
- 能量守恒项提高物理可行性和泛化性,同时在半监督数据下可训练(流量计算不需要标签)。
- 在 Mendota 湖的实验表明,该方法能捕捉深度相关的温度动态和季节性模式,证明了其实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。