QUICK REVIEW

[논문 리뷰] Autoregressive Denoising Diffusion Models for Multivariate Probabilistic Time Series Forecasting

Kashif Rasul, Calvin Seward|arXiv (Cornell University)|2021. 01. 28.

Time Series Analysis and Forecasting참고 문헌 42인용 수 43

한 줄 요약

TimeGrad는 다변량 시계열에 대한 자기회귀 확산 확률 모델로 각 단계에서 미래 분포를 샘플링하며 여섯 개 실제 데이터셋에서 확률적 예측을 최첨단으로 달성합니다.

ABSTRACT

In this work, we propose exttt{TimeGrad}, an autoregressive model for multivariate probabilistic time series forecasting which samples from the data distribution at each time step by estimating its gradient. To this end, we use diffusion probabilistic models, a class of latent variable models closely connected to score matching and energy-based methods. Our model learns gradients by optimizing a variational bound on the data likelihood and at inference time converts white noise into a sample of the distribution of interest through a Markov chain using Langevin sampling. We demonstrate experimentally that the proposed autoregressive denoising diffusion model is the new state-of-the-art multivariate probabilistic forecasting method on real-world data sets with thousands of correlated dimensions. We hope that this method is a useful tool for practitioners and lays the foundation for future research in this area.

연구 동기 및 목표

상관 관계가 있는 시계열에 대한 다변량 확률 예측의 동기를 부여하고 고차원에서의 tractable Likelihood의 한계를 다룬다.
과거 데이터와 공변량을 조건으로 하는 각 단계 분포를 모델링하기 위해 확산 프로세스를 사용하는 자기회귀 에너지 기반 모델 TimeGrad를 제안한다.
역사(history)를 인코딩하고 확산 기반 방출 모델을 조건화하기 위해 RNN(LSTM/GRU)을 활용한다.
데이터 가능도에 대한 변분 하한으로 학습하고 미래 궤적 샘플링을 위해 Langevin 다이나믹스를 사용한다.
여섯 개의 실제 데이터셋에서 수천 차원의 다양한 기준으로 TimeGrad를 벤치마크와 비교 평가한다.

제안 방법

다음 시간 스텝 분포의 로그 밀도 기울기를 학습하기 위해 확산 확률 모델링을 채택한다.
자기회귀 RNN-조건부 확산 모델로 시간에 따른 다변량 조건부 분포를 분해한다.
RNN 숨겨진 상태에 조건화된 실제 잡음과 예측 잡음 사이의 가중 제곱 오차로 축약되는 변분 하한을 통해 학습한다.
화이트 노이즈로부터 미래 시간 스텝을 생성하기 위해 Langevin 유사한 어닐링 샘플링을 사용한다.
훈련의 안정화를 위해 컨텍스트 윈도우 평균으로 시계열을 정규화하고 시간 의존 및 독립 특성에 대한 공변량 임베딩을 적용한다.
확산 스텝에서 잡음 예측자 εθ를 매개화하기 위해 잔차 형태의 확산 네트워크를 사용한다.

실험 결과

연구 질문

RQ1TimeGrad가 과거와 공변량을 고려한 미래 다변량 시간 스텝의 전체 조건부 분포를 정확하게 모델링하고 샘플링할 수 있는가?
RQ2다양한 실제 데이터셋에서 TimeGrad가 최첨단 다변량 확률 예측 방법과 어떻게 비교되는가?
RQ3확산 길이 N이 예측 정확도와 샘플링 효율성에 어떤 영향을 미치는가?
RQ4맥락 창 평균으로 정규화하는 것이 예측 성능과 안정성을 향상시키는가?
RQ5수천 차원의 상관관계가 있는 고차원 시계열을 TimeGrad가 처리할 수 있는가?

주요 결과

방법	Exchange	Solar	Electricity	Traffic	Taxi	Wikipedia
TimeGrad	0.006 ± 0.001	0.287 ± 0.020	0.0206 ± 0.001	0.044 ± 0.006	0.114 ± 0.020	0.0485 ± 0.002
VAR	0.005 ± 0.000	0.83 ± 0.006	0.039 ± 0.0005	0.29 ± 0.005	-	-
GP Copula	0.007 ± 0.000	0.337 ± 0.024	0.0245 ± 0.002	0.078 ± 0.002	0.208 ± 0.183	0.086 ± 0.004
Transformer MAF	0.005 ± 0.003	0.301 ± 0.014	0.0207 ± 0.000	0.056 ± 0.001	0.179 ± 0.002	0.063 ± 0.003

TimeGrad는 대부분의 데이터셋에서 최첨단 CRPSsum를 달성하여 고전적 및 딥러닝 벤치마크를 능가한다.
여섯 개의 실제 데이터셋에 대해 TimeGrad는 표에 제시된 결과에서 경쟁 방법들보다 일관되게 더 낮은 CRPSsum을 달성한다.
고찰 연구는 확산 길이 N을 약간의 손실로 ~10까지 줄일 수 있음을 보이며, 전력(Electricity) 데이터의 최적은 N≈100 근처이다.
TimeGrad는 수천 차원의 고차원, 상관관계가 높은 시계열을 효과적으로 모델링한다.
모델의 자기회귀 확산 접근 방식은 여러 궤적 샘플(S=100 등)을 통해 강 robust한 불확실성 정량화를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.