Skip to main content
QUICK REVIEW

[论文解读] A comparison of data-driven approaches to build low-dimensional ocean models

Niraj Agarwal, Dmitri Kondrashov|arXiv (Cornell University)|Jul 13, 2021
Meteorological Phenomena and Simulations参考文献 109被引用 27
一句话总结

本研究比较了基于数据驱动的方法,利用双涡流海洋模型构建低维海洋模拟器。多层线性随机模型在准确性、稳定性和成本方面表现最佳,而结合线性回归与深度学习的混合模型(尤其是具有状态依赖噪声的模型)也表现出色,表明记忆效应和模型误差在实现可靠海洋模拟中至关重要。

ABSTRACT

We present a comprehensive inter-comparison of linear regression (LR), stochastic, and deep-learning approaches for reduced-order statistical emulation of ocean circulation. The reference dataset is provided by an idealized, eddy-resolving, double-gyre ocean circulation model. Our goal is to conduct a systematic and comprehensive assessment and comparison of skill, cost, and complexity of statistical models from the three methodological classes. The model based on LR is considered as a baseline. Additionally, we investigate its additive white noise augmentation and a multi-level stochastic approach, deep-learning methods, hybrid frameworks (LR plus deep-learning), and simple stochastic extensions of deep-learning and hybrid methods. The assessment metrics considered are: root mean squared error, anomaly cross-correlation, climatology, variance, frequency map, forecast horizon, and computational cost. We found that the multi-level linear stochastic approach performs the best for both short- and long-timescale forecasts. The deep-learning hybrid models augmented by additive state-dependent white noise came second, while their deterministic counterparts failed to reproduce the characteristic frequencies in climate-range forecasts. Pure deep learning implementations performed worse than LR and its noise augmentations. Skills of LR and its white noise extension were similar on short timescales, but the latter performed better on long timescales, while LR-only outputs decay to zero for long simulations. Overall, our analysis promotes multi-level LR stochastic models with memory effects, and hybrid models with linear dynamical core augmented by additive stochastic terms learned via deep learning, as a more practical, accurate, and cost-effective option for ocean emulation than pure deep-learning solutions.

研究动机与目标

  • 系统评估并比较数据驱动海洋模拟方法的性能、成本和复杂度。
  • 识别适用于短期和长期海洋环流预报的最准确、最稳定且计算效率最高的方法。
  • 评估记忆效应、状态依赖噪声和混合架构在提升模拟器性能中的作用。
  • 为适用于气候建模和集合预报的低成本、数据驱动海洋模拟器提供基准。

提出的方法

  • 本研究使用双涡流海洋环流模型作为参考数据集,将其动力学投影到经验正交函数(EOFs)和主成分(PCs)上。
  • 以线性回归(LR)为基线,通过添加白噪声和多层随机公式进行扩展。
  • 训练前馈神经网络和长短期记忆(LSTM)网络等深度学习模型,以从主成分时间序列中学习动力学。
  • 混合模型将线性回归作为动力核心,结合深度学习以学习残差误差和状态依赖噪声。
  • 对纯深度学习和混合模型均应用随机扩展,使噪声项具有状态依赖性,以捕捉记忆效应和模型误差。
  • 通过均方根误差、异常互相关、方差、频率图、预报时域和计算成本等指标评估性能。

实验结果

研究问题

  • RQ1哪种数据驱动方法能为短期和长期预报生成最准确且最稳定的低维海洋模拟器?
  • RQ2记忆效应和状态依赖噪声如何影响数据驱动海洋模拟器的性能?
  • RQ3结合线性回归与深度学习的混合模型是否能优于独立的深度学习或线性模型?
  • RQ4不同模拟方法之间的计算成本权衡如何,特别是在训练与预报阶段?
  • RQ5与确定性模型相比,随机扩展如何提升海洋模拟器的稳定性和真实性?

主要发现

  • 多层线性随机(ML-LR)模型在短期和长期预报中均取得最佳整体性能,在准确性和稳定性方面优于所有其他方法。
  • 结合线性回归与深度学习的混合模型,尤其在添加状态依赖噪声后,排名第二,并显著优于其确定性对应模型。
  • 纯深度学习模型的表现劣于线性回归及其噪声增强变体,特别是在再现典型气候范围频率方面。
  • 引入状态依赖噪声显著提升了长期稳定性和预报准确性,而仅使用红噪声增强的LR模型因缺乏状态依赖性而失败。
  • 深度学习模型的训练成本最高,但推理速度最快;混合模型在成本与性能之间提供了良好平衡。
  • ML-LR和混合模型的成功凸显了在海洋模拟器中嵌入核心动力学、记忆效应和模型误差表征的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。