[논문 리뷰] Non-autoregressive Conditional Diffusion Models for Time Series Prediction
TimeDiff는 미래 믹스업과 autoregressive 초기화를 사용해 디노이저를 조건화하는 비자 autoregressive 확산 모델로, 기존 확산 모델과 베이스라인 대비 장기 예측에서 우수한 성능을 달성합니다. 9개의 실제 데이터 세트에서 TimeGrad, CSDI, SSSD, D3VAE를 꾸준히 능가합니다.
Recently, denoising diffusion models have led to significant breakthroughs in the generation of images, audio and text. However, it is still an open question on how to adapt their strong modeling ability to model time series. In this paper, we propose TimeDiff, a non-autoregressive diffusion model that achieves high-quality time series prediction with the introduction of two novel conditioning mechanisms: future mixup and autoregressive initialization. Similar to teacher forcing, future mixup allows parts of the ground-truth future predictions for conditioning, while autoregressive initialization helps better initialize the model with basic time series patterns such as short-term trends. Extensive experiments are performed on nine real-world datasets. Results show that TimeDiff consistently outperforms existing time series diffusion models, and also achieves the best overall performance across a variety of the existing strong baselines (including transformers and FiLM).
연구 동기 및 목표
- 확산 모델을 시계열 예측, 특히 장기 예측 및 비정상성에 적용하는 데 따른 문제점과 도전을 동기화하고 해결합니다.
- 시계열에 맞춘 조건화 메커니즘으로 denoising 가이드를 개선하는 TimeDiff를 도입합니다.
- 여러 실제 데이터 세트에서 기존 확산 모델과 강력한 베이스라인 대비 TimeDiff의 예측 성능이 우수함을 입증합니다.
- future mixup과 autoregressive initialization의 효과를 정당화하기 위한 아블레이션을 제시합니다.
제안 방법
- 표준 DDPM 구성으로 미래 시간 창 x1:H^0에 대해 순방향 확산 과정을 사용합니다.
- denoising 단계에서 두 구성요소를 통한 조건화 c를 도입합니다: future mixup z_mix와 autoregressive initialization z_ar.
- 학습 중에는 미래 조건화와 실제 미래를 혼합하는 future mixup을 사용하고 추론 시에는 과거 조건화만 사용합니다.
- 경계 불협화를 줄이기 위해 pretrained 선형 AR 모델을 통해 초기 대략 예측 z_ar를 제공합니다.
- denoising 네트워크 x_theta는 확산 단계 임베딩 p^k와 입력 x1:H^k를 결합한 다음 조건화 c와 융합하여 x1:H^{k-1}을 예측합니다(비자 autoregressive denoising).
- 조건화된 L2 손실로 디노이즈된 출력에 대해 학습합니다; 추론은 x1:H^K ~ N(0,I)에서 x1:H^0로 점진적 디노이즈를 통해 진행합니다.
실험 결과
연구 질문
- RQ1비자 autoregressive 확산 모델이 장기 시간 예측에 경쟁력이 있을 수 있는가?
- RQ2미래 믹스업과 AR 초기화와 같은 시계열에 맞춘 조건화 메커니즘이 장기 예측의 정확도와 경계 불협화를 개선하는가?
- RQ3TimeDiff가 자 autoregressive 확산 방식 및 비자 autoregressive 베이스라인과 비교해 다양한 실제 데이터 세트에서 어떤 차이를 보이는가?
주요 결과
| 데이터셋 | TimeDiff MSE | TimeGrad MSE | CSDI MSE | SSSD MSE | D3VAE MSE | FiLM MSE | Depts MSE | NBeats MSE | PatchTST MSE | FedFormer MSE | Autoformer MSE | Pyraformer MSE | Informer MSE | Transformer MSE | DLinear MSE | LSTMa MSE | avg rank |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| NorPool | 0.636 (2) | 1.129 (15) | 0.967 (14) | 1.145 (16) | 0.964 (13) | 0.707 (5) | 0.668 (3) | 0.964 (6) | 0.595 (1) | 0.891 (9) | 0.946 (12) | 0.933 (11) | 0.804 (7) | 0.928 (10) | 0.671 (4) | 1.481 (16) | 2.7 |
| Caiso | 0.122 (3) | 0.325 (15) | 0.192 (9) | 0.176 (7) | 0.521 (16) | 0.185 (8) | 0.107 (1) | 0.125 (4) | 0.193 (10) | 0.164 (5) | 0.248 (11) | 0.165 (6) | 0.250 (12.5) | 0.250 (12.5) | 0.461 (16) | 0.217 (9) | 11.6 |
| Weather | 0.002 (2) | 0.002 (2) | 0.002 (2) | 0.004 (6) | 0.003 (4) | 0.007 (10) | 0.024 (13) | 0.168 (15) | 0.026 (14) | 0.005 (7) | 0.003 (4.5) | 0.020 (12) | 0.007 (10) | 0.007 (10) | 0.168 (16) | 0.662 (13) | 10.8 |
| ETTm1 | 0.040 (2) | 0.048 (6) | 0.050 (10) | 0.049 (8.5) | 0.044 (4) | 0.038 (1) | 0.380 (5) | 0.344 (6) | 0.372 (5) | 0.426 (8) | 0.565 (12) | 0.493 (10) | 0.673 (13) | 0.992 (15) | 0.345 (2) | 1.030 (16) | 1.7 |
| Wind | 2.407 (9) | 2.530 (12) | 2.434 (10.5) | 3.149 (15) | 2.679 (13) | 2.143 (1) | 1.082 (8) | 1.188 (13) | 1.070 (7) | 1.113 (10) | 1.083 (9) | 1.061 (4) | 1.168 (12) | 1.201 (14) | 0.899 (2) | 1.464 (16) | 13.9 |
| Traffic | 0.121 (1) | 1.223 (16) | 0.393 (13) | 0.151 (6) | 0.151 (6) | 0.198 (10) | 1.019 (14) | 0.642 (6) | 0.831 (11) | 0.591 (4) | 0.688 (10) | 0.659 (7) | 0.664 (8) | 0.671 (9) | 0.389 (2) | 0.966 (13) | 7.7 |
| Electricity | 0.232 (1) | 0.920 (16) | 0.520 (12) | 0.370 (14) | 0.535 (13) | 0.260 (3) | 0.319 (12) | 0.286 (10) | 0.225 (5) | 0.238 (6) | 0.201 (2) | 0.273 (9) | 0.298 (11) | 0.328 (13) | 0.244 (4) | 0.414 (14) | 4.8 |
| ETTh1 | 0.066 (1) | 0.078 (8) | 0.083 (11) | 0.097 (14) | 0.078 (8) | 0.070 (2) | 0.579 (9) | 0.504 (5) | 0.526 (7) | 0.541 (8) | 0.516 (6) | 0.579 (9) | 0.775 (14) | 0.759 (13) | 0.415 (2) | 1.149 (16) | 10.2 |
| Exchange | 0.017 (3) | 0.078 (8) | 0.071 (16) | 0.023 (10.5) | 0.019 (7) | 0.018 (5) | 0.020 (4) | 0.047 (7) | 0.020 (8.5) | 0.133 (14) | 0.056 (8) | 0.073 (11) | 0.073 (11) | 0.062 (10) | 0.244 (2) | 0.403 (16) | 8.1 |
| avg rank | 2.7 | 11.6 | 10.8 | 1.7 | 13.9 | 3.2 | 7.7 | 4.8 | 7.6 | 9.0 | 6.6 | 9.4 | 10.9 | 11.3 | 5.3 | 14.2 |
- TimeDiff는 9개의 실제 데이터 세트에서 기존 시계열 확산 모델(TimeGrad, CSDI, SSSD, D3VAE)을 꾸준히 능가합니다.
- TimeDiff는 최첨단 시계열 트랜스포머 및 FiLM 기반 모델을 포함한 베이스라인 중에서 전반적으로 최상의 성능을 달성합니다.
- Future mixup과 AR 초기화가 장기 예측을 위한 조건화 효능을 크게 향상시키며(두 구성요소의 효과를 보여주는 아블레이션), 이로 인해 예측 성능이 상승합니다.
- 가속 샘플러(DPM-Solver 등)를 사용한 추론 시에도 디노이즈 단계를 20개 미만으로 줄여 효율성을 유지합니다.
- 다변량 결과에서도 TimeDiff가 다양한 데이터 세트에서 강한 MSE 성능을 보이며 평균 순위가 우호적으로 나타납니다.
- 자 autoregressive 확산 방법과 비교할 때 TimeDiff는 오차 누적과 느린 추론을 피하면서도 높은 정확도를 유지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.