[論文レビュー] Comparison of different Methods for Univariate Time Series Imputation in R
この論文は、相関関係ではなく時間的依存性を活用する手法に焦点を当て、一変量時系列における欠損値補完のための複数のRベースの手法を評価・比較している。研究では、欠損データ比率が変化しても一貫して優れた性能を示したのは、季節的カルマンフィルタ('zoo'パッケージ経由)と、季節分解済みデータにおける線形補間('forecast'パッケージ経由)であることが判明した。
Missing values in datasets are a well-known problem and there are quite a lot of R packages offering imputation functions. But while imputation in general is well covered within R, it is hard to find functions for imputation of univariate time series. The problem is, most standard imputation techniques can not be applied directly. Most algorithms rely on inter-attribute correlations, while univariate time series imputation needs to employ time dependencies. This paper provides an overview of univariate time series imputation in general and an in-detail insight into the respective implementations within R packages. Furthermore, we experimentally compare the R functions on different time series using four different ratios of missing data. Our results show that either an interpolation with seasonal kalman filter from the zoo package or a linear interpolation on seasonal loess decomposed data from the forecast package were the most effective methods for dealing with missing data in most of the scenarios assessed in this paper.
研究の動機と目的
- 一変量時系列の補完に特化したRパッケージの不足を補うため、主に時間的依存性を活用する手法の開発を目的とする。
- 一変量時系列補完に特化した既存のR関数の性能を評価・比較すること。
- 一変量時系列における欠損データの割合が異なる状況下で、最も効果的な補完手法を特定すること。
- Rパッケージ内での時系列補完実装の包括的概要を提供すること。
提案手法
- 本研究は、時間的自己相関および季節性を活用する手法に焦点を当て、複数のRパッケージによる時系列補完を評価した。
- 補間の前処理として、ローレスを用いた季節分解(STL)を適用し、トレンド、季節成分、残差成分に分解した。その後、残差成分に対して線形補間を適用した。
- 季節的カルマンフィルタ法は、時系列を季節成分とトレンド成分を含む状態空間プロセスとしてモデル化することで、欠損値を推定した。
- 補完性能の評価には、欠損データ比率を5%、10%、20%、30%の4つの異なる水準で行った。
- 補完精度の比較には、平均二乗誤差(RMSE)と平均絶対誤差(MAE)といった統計指標を用いた。
- 結果の一般化を確保するため、多様な実世界の時系列データセットを用いて分析を実施した。
実験結果
リサーチクエスチョン
- RQ1一変量時系列における欠損値補完に最も適したRベースの補完手法は何か?
- RQ2補間ベースの手法と、季節的カルマンフィルタのような状態空間モデルの間で、補完精度に差は生じるか?
- RQ3欠損データの割合が増加するにつれて、補完手法の性能に顕著な差が現れるか?
- RQ4標準的な補間法と比較して、季節分解と時間的モデリングを組み合わせることで、補完精度はどの程度向上するか?
主な発見
- 'zoo'パッケージに実装された季節的カルマンフィルタは、多数のテスト時系列および欠損データ比率において、最も高い精度を達成した。
- 'forecast'パッケージを用いた季節分解済みデータにおける線形補間は、特に季節的パターンが顕著な時系列において、2番目に効果的な手法であった。
- 変数間相関に依存する標準的な補完手法は、一変量時系列の依存構造と不適合であるため、性能が著しく低かった。
- 欠損データ比率が増加するにつれて性能の低下が観察されたが、季節的カルマンフィルタとローレスベース補間は、30%の欠損率でも依然として頑健であった。
- STL分解と線形補間の組み合わせは、元のデータに対する直接的な線形補間よりも、著しく高い補完精度を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。