[论文解读] Comparison of different Methods for Univariate Time Series Imputation in R
本文评估并比较了多种基于 R 的方法,用于填补单变量时间序列中的缺失值,重点在于利用时间依赖性而非变量间相关性的技术。研究发现,通过 'zoo' 包实现的季节性卡尔曼滤波和通过 'forecast' 包实现的季节性分解数据上的线性插值,在不同缺失数据比例下始终优于其他方法。
Missing values in datasets are a well-known problem and there are quite a lot of R packages offering imputation functions. But while imputation in general is well covered within R, it is hard to find functions for imputation of univariate time series. The problem is, most standard imputation techniques can not be applied directly. Most algorithms rely on inter-attribute correlations, while univariate time series imputation needs to employ time dependencies. This paper provides an overview of univariate time series imputation in general and an in-detail insight into the respective implementations within R packages. Furthermore, we experimentally compare the R functions on different time series using four different ratios of missing data. Our results show that either an interpolation with seasonal kalman filter from the zoo package or a linear interpolation on seasonal loess decomposed data from the forecast package were the most effective methods for dealing with missing data in most of the scenarios assessed in this paper.
研究动机与目标
- 为填补 R 包在单变量时间序列填补方面的空白,这些包通常依赖于变量间相关性而非时间依赖性。
- 评估并比较专为单变量时间序列填补设计的现有 R 函数的性能。
- 在单变量时间序列中缺失数据比例不同的情况下,识别最有效的填补技术。
- 提供 R 包中时间序列填补实现的全面概述。
提出的方法
- 本研究评估了多个实现时间序列填补的 R 包,重点关注利用时间自相关性和季节性的方法。
- 在应用线性插值前,使用 loess 进行季节分解(STL)以提取趋势、季节性和残差分量。
- 采用季节性卡尔曼滤波方法,通过将时间序列建模为具有季节性和趋势分量的状态空间过程来估计缺失值。
- 使用四种不同的缺失数据比例(5%、10%、20% 和 30%)进行评估。
- 通过均方根误差(RMSE)和平均绝对误差(MAE)等统计指标比较填补精度。
- 在多种真实世界时间序列数据集上进行分析,以确保结果的普适性。
实验结果
研究问题
- RQ1哪些基于 R 的填补方法在存在缺失值的单变量时间序列中表现最佳?
- RQ2基于插值的方法与季节性卡尔曼滤波等状态空间模型在填补精度方面如何比较?
- RQ3随着缺失数据比例的增加,填补方法的性能是否显著变化?
- RQ4与标准插值相比,季节性分解和时间建模在多大程度上提升了填补精度?
主要发现
- 通过 'zoo' 包实现的季节性卡尔曼滤波在大多数测试的时间序列和缺失数据比例下均实现了最高精度。
- 通过 'forecast' 包在季节性分解数据上进行线性插值是第二有效的技术,尤其适用于具有强季节性模式的时间序列。
- 依赖于变量间相关性的标准填补技术表现较差,因其与单变量时间序列的时间依赖性不兼容。
- 随着缺失数据比例增加,性能有所下降,但季节性卡尔曼滤波和基于 loess 的插值在 30% 缺失数据时仍保持稳健。
- STL 分解与线性插值的结合显著提升了填补精度,优于对原始数据直接进行线性插值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。