Skip to main content
QUICK REVIEW

[论文解读] Robust Non-Parametric Mortality and Fertility Modelling and Forecasting: Gaussian Process Regression Approaches

Ka Kin Lam, Bo Wang|arXiv (Cornell University)|Mar 9, 2021
Insurance, Mortality, Demography, Risk Management参考文献 37被引用 8
一句话总结

本文提出了一种新颖的非参数高斯过程回归模型,采用自然样条均值函数与谱混合协方差,实现对死亡率与生育率的稳健预测。通过将每个年龄特定率建模为时间上的高斯过程,该模型在十个人口发达国家的死亡率与生育率预测中,均在短期、中期和长期预测中表现出色,优于主流模型(如Lee-Carter与Hyndman-Ullah)在死亡率与生育率预测任务中的表现。

ABSTRACT

A rapid decline in mortality and fertility has become major issues in many developed countries over the past few decades. An accurate model for forecasting demographic movements is important for decision making in social welfare policies and resource budgeting among the government and many industry sectors. This article introduces a novel non-parametric approach using Gaussian process regression with a natural cubic spline mean function and a spectral mixture covariance function for mortality and fertility modelling and forecasting. Unlike most of the existing approaches in demographic modelling literature, which rely on time parameters to determine the movements of the whole mortality or fertility curve shifting from one year to another over time, we consider the mortality and fertility curves from their components of all age-specific mortality and fertility rates and assume each of them following a Gaussian process over time to fit the whole curves in a discrete but intensive style. The proposed Gaussian process regression approach shows significant improvements in terms of forecast accuracy and robustness compared to other mainstream demographic modelling approaches in the short-, mid- and long-term forecasting using the mortality and fertility data of several developed countries in the numerical examples.

研究动机与目标

  • 解决依赖全局时间参数来整体移动曲线的参数化与半参数化人口模型的局限性。
  • 提升死亡率与生育率趋势预测的准确性与鲁棒性,尤其是在存在结构性变化或异常值的情况下。
  • 开发一种灵活、数据驱动的方法,使每个年龄特定率可作为时间上的独立随机过程独立演化。
  • 在多样化的人口数据集中,证明该模型在短期、中期与长期预测中的优越性能。
  • 提供一种非参数替代方案,在保持解析可计算性与不确定性量化的同时,避免强参数假设。

提出的方法

  • 将每个年龄特定的死亡率与生育率分别建模为时间上的高斯过程,将其视为独立同分布的随机过程。
  • 采用自然样条作为均值函数,以捕捉局部趋势,并确保在观测数据之外实现平滑的线性外推。
  • 使用谱混合协方差函数,以在不假设固定参数形式的前提下,建模人口时间序列中的复杂非线性与周期性模式。
  • 应用贝叶斯推断,估计未来曲线的后验分布,从而实现完整的预测分布与预测区间。
  • 采用滚动窗口交叉验证框架,评估多个人口国家与多个预测时间跨度下的预测性能。
  • 通过最大化边际似然优化超参数,确保模型能自适应本地数据特征,同时避免过拟合。

实验结果

研究问题

  • RQ1具有自然样条均值与谱混合协方差的非参数高斯过程回归模型,是否能在死亡率与生育率预测中超越主流参数化模型?
  • RQ2与依赖时间参数的模型(如Lee-Carter)相比,所提出的模型在处理人口数据中的结构性变化或异常值时表现如何?
  • RQ3将每个年龄组独立建模为时间序列,是否相比全局曲线移动方法能提升预测的鲁棒性?
  • RQ4该模型在真实世界发达国家数据上的短期、中期与长期预测中表现如何?
  • RQ5谱混合协方差函数在多大程度上能够捕捉死亡率与生育率趋势中的非线性与周期性动态?

主要发现

  • 所提出的高斯过程回归(GPR)模型在所有预测时间跨度上,相较于Lee-Carter、BMS、HU与LM模型,在死亡率与生育率数据中均显著降低了预测误差。
  • 在死亡率预测中,GPR模型在十个人口发达国家的短期与中期预测中均达到最低平均RMSE,尤其在英国与美国男性死亡率数据上表现尤为突出。
  • 在生育率预测中,GPR模型在短期与中期预测中表现最优,平均RMSE最小,并在15年预测时间跨度上与Hyndman-Ullah模型表现相当。
  • 在长期20年生育率预测中,Hyndman-Ullah模型略胜于GPR模型,可能归因于其内置平滑机制对噪声生育率数据的更好处理能力。
  • GPR模型展现出更强的鲁棒性:预测错误仅影响个别年龄组,而不会像依赖全局时间参数的模型那样扭曲整个曲线形状。
  • 谱混合协方差函数有效捕捉了人口数据中的非线性与周期性模式,提升了模型的灵活性与拟合度,且无需预先设定参数形式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。