[논문 리뷰] Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models
논문은 구조화된 상태공간 모델을 이용한 확산 모델 기반 임퓨테이션 방법 SSSD를 제안하여 장기 의존성을 포착하고, 다양한 누락 시나리오 및 예측 작업에서 최첨단 성능을 달성한다.
The imputation of missing values represents a significant obstacle for many real-world data analysis pipelines. Here, we focus on time series data and put forward SSSD, an imputation model that relies on two emerging technologies, (conditional) diffusion models as state-of-the-art generative models and structured state space models as internal model architecture, which are particularly suited to capture long-term dependencies in time series data. We demonstrate that SSSD matches or even exceeds state-of-the-art probabilistic imputation and forecasting performance on a broad range of data sets and different missingness scenarios, including the challenging blackout-missing scenarios, where prior approaches failed to provide meaningful results.
연구 동기 및 목표
- 시계열의 누락 데이터를 조건부 확산 모델과 구조화된 상태공간 모델을 결합하여 장기 의존성을 포착합니다.
- SSSD 및 변형을 도입하여 어려운 누락 시나리오(RM, RBM, BM, TF)에서 임퓨테이션 품질을 향상시킵니다.
- ECG, MuJoCo, Electricity, Solar 데이터세트에서 강력한 기준선 대비 양적·질적 이점을 보여줍니다.
- 임퓨테이션에서 확산 노이즈를 누락 영역에만 적용할 때의 성능에 대한 분석을 제공합니다.
제안 방법
- 입력과 임퓨테이션 마스크를 조건으로 하는 조건부 확산 모델링을 채택합니다.
- 전통적 시간 블록을 S4 계층으로 대체하고 DiffWave와 유사한 확산 아키텍처 내에서 사용합니다.
- 임퓨테이션 영역에 한정된 확산 노이즈(D1 설정)를 사용하여 임퓨테이션 현실성을 향상시킵니다.
- 다양한 아키텍처 변형을 비교합니다: SSSD-S4, SSSD-SA, CSDI-S4, 및 DiffWave와 CSDI와 같은 확산 기저 모델.
- 관찰된 지상-truth 영역에서의 MSE 손실로 학습하고 샘플 간 확률적 임퓨테이션(분위수)을 평가합니다.
실험 결과
연구 질문
- RQ1SSM를 갖춘 확산 기반 시계열 임퓨테이션이 기존의 확산 기반 및 비확산 임퓨터에 비해 다양한 누락 패턴에서 우수한 정확도를 달성할 수 있는가?
- RQ2임퓨테이션 영역에만 확산 노이즈를 제한(D1)하는 것이 전체 시퀀스에 노이즈를 적용하는(D0) 경우보다 임퓨테이션 품질에 어떻게 영향을 미치는가?
- RQ3구조화된 상태공간 계층(S4)이 시계열의 임퓨테이션 및 예측에서 장기 의존성 모델링을 개선하는가?
- RQ4RM, RBM, BM, TF 작업에서 실제 데이터셋(ECG, MuJoCo, Electricity, Solar)에서 SSSD 변형의 성능은 어떠한가?
- RQ5임퓨테이션 모델에서 양방향 맥락이 예측 작업에 허용되는가, 아니면 데이터 누설 위험이 있는가?
주요 결과
| 모델 | MAE | RMSE |
|---|---|---|
| 20% RM on PTB-XL LAMC | 0.0678 | 0.1309 |
| 20% RM on PTB-XL CSDI | 0.0038±2e-6 | 0.0189±5e-5 |
| 20% RM on PTB-XL DiffWave | 0.0043±4e-4 | 0.0177±4e-4 |
| 20% RM on PTB-XL CSDI^{S4} | 0.0031±1e-7 | 0.0171±6e-4 |
| 20% RM on PTB-XL SSSD^{SA} | 0.0045±3e-7 | 0.0181±4e-6 |
| 20% RM on PTB-XL SSSD^{S4} | 0.0034±4e-6 | 0.0119±1e-4 |
| 20% RBM on PTB-XL LAMC | 0.0759 | 0.1498 |
| 20% RBM on PTB-XL CSDI | 0.0186±1e-5 | 0.0435±2e-4 |
| 20% RBM on PTB-XL DiffWave | 0.0250±1e-3 | 0.0808±5e-3 |
| 20% RBM on PTB-XL CSDI^{S4} | 0.0222±2e-5 | 0.0573±1e-3 |
| 20% RBM on PTB-XL SSSD^{SA} | 0.0170±1e-4 | 0.0492±1e-2 |
| 20% RBM on PTB-XL SSSD^{S4} | 0.0103±3e-3 | 0.0226±9e-4 |
| 20% BM on PTB-XL LAMC | 0.0840 | 0.1171 |
| 20% BM on PTB-XL CSDI | 0.1054±4e-5 | 0.2254±7e-5 |
| 20% BM on PTB-XL DiffWave | 0.0451±7e-4 | 0.1378±5e-3 |
| 20% BM on PTB-XL CSDI^{S4} | 0.0792±2e-4 | 0.1879±1e-4 |
| 20% BM on PTB-XL SSSD^{SA} | 0.0435±3e-3 | 0.1167±1e-2 |
| 20% BM on PTB-XL SSSD^{S4} | 0.0324±3e-3 | 0.0832±8e-3 |
- SSSD-S4는 PTB-XL ECG 데이터의 RM, RBM, BM 누락에서 일반적으로 경쟁 임퓨터를 능가하며 CSDI 및 DiffWave 베이스라인보다 MAE/RMSE가 현저히 낮다.
- 임퓨테이션 영역에만 확산 노이즈를 적용하는(D1) 것이 샘플 전체에 노이즈를 적용하는(D0) 것보다 우수한 결과를 보인다.
- SSSD-S4는 특히 블랙아웃 누락 시나리오에서 큰 이득을 얻어 PTB-XL의 BM에서 CSDI 대비 MAE를 50% 이상 감소시킨다.
- MuJoCo에서 SSSD-S4는 RM 70–90% 시나리오에서 기준선과 견주거나 이를 초과하며, 90% 누락에서의 강력한 성능은 주목할 만한 이득을 보인다.
- Electricity 데이터에서 SSSD-S4는 RM 10–50% 구간의 레임퓨테이션에서 MAE 및 RMSE 감소를 포함한 큰 개선을 보이며 종종 CSDI-S4 및 SAITS 베이스라인을 능가한다.
- Solar 예측에서 SSSD-S4는 가장 강력한 베 baseline인(TLAE) 대비 27%의 MSE 감소를 달성하고 보고된 지표에서 CSDI를 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.