Skip to main content
QUICK REVIEW

[논문 리뷰] Comparison of different Methods for Univariate Time Series Imputation in R

Steffen Möritz, Alexis Sardá|arXiv (Cornell University)|2015. 10. 13.
Data Analysis with R인용 수 106
한 줄 요약

이 논문은 다변량 시계열 데이터의 상관관계가 아닌 시간적 의존성을 활용하는 방법에 중점을 두고, R 기반의 단변량 시계열에서의 결측치 보정을 평가하고 비교한다. 연구 결과, 시계열 분해 후 선형 보간을 적용한 방법과 'zoo' 패키지를 통해 구현된 계절성 칼만 필터링이 다양한 결측비율에서 다른 방법들보다 일관되게 뛰어난 성능을 보였다.

ABSTRACT

Missing values in datasets are a well-known problem and there are quite a lot of R packages offering imputation functions. But while imputation in general is well covered within R, it is hard to find functions for imputation of univariate time series. The problem is, most standard imputation techniques can not be applied directly. Most algorithms rely on inter-attribute correlations, while univariate time series imputation needs to employ time dependencies. This paper provides an overview of univariate time series imputation in general and an in-detail insight into the respective implementations within R packages. Furthermore, we experimentally compare the R functions on different time series using four different ratios of missing data. Our results show that either an interpolation with seasonal kalman filter from the zoo package or a linear interpolation on seasonal loess decomposed data from the forecast package were the most effective methods for dealing with missing data in most of the scenarios assessed in this paper.

연구 동기 및 목표

  • 단변량 시계열 데이터의 결측치 보정을 위한 R 패키지의 격차를 해소하기 위해, 상관관계가 아닌 시간적 의존성을 기반으로 하는 방법을 개발하고자 한다.
  • 특히 단변량 시계열 데이터의 결측치 보정을 위해 설계된 기존 R 함수의 성능을 평가하고 비교하고자 한다.
  • 단변량 시계열 데이터에서 다양한 비율의 결측치가 존재할 경우 가장 효과적인 보정 기법을 규명하고자 한다.
  • R 패키지 내에서 구현된 시계열 데이터 보정 기법에 대한 종합적인 개요를 제공하고자 한다.

제안 방법

  • 연구는 시간적 자기상관과 계절성을 활용하는 방법을 중점으로 하여, 다양한 R 패키지에서 제공하는 시계열 데이터 보정 기법을 평가한다.
  • 선형 보간을 적용하기 전에 로이드 기반 시계열 분해(STL)를 통해 추세, 계절성 및 잔차 성분을 추출한다.
  • 계절성 칼만 필터링 방법은 시간적 시리즈를 계절성 및 추세 성분을 포함한 상태공간 모델로 모델링하여 결측치를 추정한다.
  • 결측치 비율을 5%, 10%, 20%, 30%로 나누어 네 가지 다른 수준에서 성능을 평가한다.
  • 보정 정확도를 평가하기 위해 근사제곱근오차(RMSE)와 평균절대오차(MAE)와 같은 통계적 지표를 사용한다.
  • 결과의 일반화를 확보하기 위해 다양한 실제 시계열 데이터 세트를 대상으로 분석을 수행한다.

실험 결과

연구 질문

  • RQ1단변량 시계열에서 결측치가 존재할 경우, 어떤 R 기반 보정 기법이 가장 우수한 성능을 보이는가?
  • RQ2보간 기반 기법과 계절성 칼만 필터링과 같은 상태공간 모델 간의 보정 정확도는 어떻게 비교되는가?
  • RQ3결측치 비율이 증가함에 따라 보정 기법의 성능이 유의미하게 변화하는가?
  • RQ4기본 보간법에 비해 시계열 분해와 시간적 모델링이 보정 정확도 향상에 얼마나 기여하는가?

주요 결과

  • 'zoo' 패키지에 구현된 계절성 칼만 필터링 방법이 대부분의 테스트된 시계열과 결측비율에서 가장 높은 정확도를 달성했다.
  • 'forecast' 패키지를 사용해 계절성 분해 후 선형 보간을 적용한 방법이 두 번째로 효과적이었으며, 특히 강한 계절성 패턴을 보이는 시계열에서 뛰어난 성능을 보였다.
  • 다른 변수 간 상관관계에 의존하는 전통적인 보정 기법은 단변량 시계열의 시간적 의존성과 부합하지 않아 성능이 열악했다.
  • 결측치 비율이 증가함에 따라 성능 저하가 관찰되었지만, 계절성 칼만 필터링과 로이드 기반 보간법은 30%의 결측치 비율에서도 뛰어난 내구성을 유지했다.
  • STL 분해와 선형 보간의 조합은 원시 데이터에 직접 선형 보간을 적용한 것보다 보정 정확도가 유의미하게 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.