[论文解读] Regular Time-series Generation using SGM
本论文提出 TSGM,一种通过在潜在空间学习条件分布的梯度来进行条件分数生成的模型,以编码器–解码器和专门的去噪分数匹配损失学习时间序列,达到采样质量与多样性的当前最优水平。
Score-based generative models (SGMs) are generative models that are in the spotlight these days. Time-series frequently occurs in our daily life, e.g., stock data, climate data, and so on. Especially, time-series forecasting and classification are popular research topics in the field of machine learning. SGMs are also known for outperforming other generative models. As a result, we apply SGMs to synthesize time-series data by learning conditional score functions. We propose a conditional score network for the time-series generation domain. Furthermore, we also derive the loss function between the score matching and the denoising score matching in the time-series generation domain. Finally, we achieve state-of-the-art results on real-world datasets in terms of sampling diversity and quality.
研究动机与目标
- 推动并实现高质量、多样化的时间序列合成,超越预测与插补的应用范围。
- 将分数基生成模型(SGMs)扩展到时间序列生成,支持条件采样。
- 开发针对全递归时间序列数据的去噪分数匹配损失。
- 提出一个现实世界数据可用的编码器–解码器 + 条件分数网络框架(TSGM)以实现生成。
- 在多个数据集上展示先进的生成质量和多样性。
提出的方法
- 提出 Time-series SGM (TSGM),包含三个组件:编码器、解码器,以及为时间序列生成设计的条件分数网络。
- 对基于 RNN 的编码器–解码器进行预训练,将时间序列映射到潜在空间并从中映射回去,捕捉时序结构。
- 训练一个条件分数网络,学习随扩散潜在表示的条件对数似然梯度,使用针对时间序列的去噪分数匹配目标(L_score^H)。
- 对潜在表示使用前向 SDE 进行扩散 h_t^s,并在训练的分数网络下执行预测–校正采样过程以生成 h_t,再解码为 x_1:T。
- 提供两种 SDE 变体(VP 和 subVP)并进行消融实验,展示预训练、网络深度与采样步数的影响。
实验结果
研究问题
- RQ1SGMs 是否可以在没有条件约束的情况下通过适当的条件分数形式来有效适应时间序列的生成?
- RQ2如何设计一个去噪分数匹配目标以尊重时间序列生成的全递归、条件性质?
- RQ3在真实数据集上使用潜在空间 SGM 搭配 RNN 编码器–解码器时,可在保真度与多样性方面获得哪些提升?
- RQ4VP 与 subVP SDE 设置在时间序列生成上的质量与多样性对比如何?
- RQ5架构选择(如 U-Net 深度、采样步数)对性能与效率有何影响?
主要发现
| Model | Stock Disc. | Stock Pred. | Energy Disc. | Energy Pred. | Air Disc. | Air Pred. | AI4I Disc. | AI4I Pred. | Occupancy Disc. | Occupancy Pred. |
|---|---|---|---|---|---|---|---|---|---|---|
| TSGM-VP | .022 ± .005 | .037? | .221 ± .025 | .? | .122 ± .014 | .? | .147 ± .005 | .? | .402 ± .004 | .? |
| TSGM-subVP | .021 ± .008 | .? | .198 ± .025 | .? | .127 ± .010 | .? | .150 ± .010 | .? | .414 ± .008 | .? |
| TimeGAN | .102 ± .031 | .238 ± .? | .236 ± .012 | .? | .447 ± .017 | .? | .070 ± .009 | .? | .365 ± .014 | .? |
| RCGAN | .196 ± .027 | .292 ± .005 | .336 ± .017 | .? | .459 ± .104 | .? | .234 ± .015 | .? | .485 ± .001 | .? |
| C-RNN-GAN | .399 ± .028 | .483 ± .005 | .499 ± .001 | .? | .499 ± .000 | .? | .499 ± .001 | .? | .467 ± .009 | .? |
| TimeVAE | .175 ± .031 | .268 ± .004 | .498 ± .006 | .? | .381 ± .037 | .? | .446 ± .024 | .? | .415 ± .050 | .? |
| WaveGAN | .217 ± .022 | .307 ± .007 | .363 ± .012 | .? | .491 ± .013 | .? | .481 ± .034 | .? | .309 ± .039 | .? |
| COT-GAN | .285 ± .030 | .498 ± .000 | .498 ± .000 | .? | .423 ± .001 | .? | .411 ± .018 | .? | .443 ± .014 | .? |
| Original Disc | .036 ± .001 | .250 ± .003 | .004 ± .000 | .217 ± .000 | .019 ± .000 | .? | .? | ? | ? |
- TSGM 在五个真实数据集、十种评估场景下实现了最先进的结果,显示出更高的生成质量与多样性。
- TSGM 在判别和预测分数上普遍优于八个强基线(包括 TimeGAN 和 TimeVAE),在若干数据集上接近原始数据的预测性能。
- 一种针对全递归时间序列设置的新颖去噪分数匹配形式提供了正确且有效的训练目标(定理1)。
- t-SNE 可视化显示,与基线相比,TSGM 拥有更高的多样性并更忠实地回忆原始数据。
- 消融和敏感性研究表明预训练、U-Net 深度以及采样步数对性能与效率的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。