[论文解读] TSI-Bench: Benchmarking Time Series Imputation
TSI-Bench 是首个面向深度学习时间序列插补的综合基准测试套件,在 8 个数据集和多种缺失模式下评估 28 个模型,以指导模型选择和下游任务影响。
Effective imputation is a crucial preprocessing step for time series analysis. Despite the development of numerous deep learning algorithms for time series imputation, the community lacks standardized and comprehensive benchmark platforms to effectively evaluate imputation performance across different settings. Moreover, although many deep learning forecasting algorithms have demonstrated excellent performance, whether their modelling achievements can be transferred to time series imputation tasks remains unexplored. To bridge these gaps, we develop TSI-Bench, the first (to our knowledge) comprehensive benchmark suite for time series imputation utilizing deep learning techniques. The TSI-Bench pipeline standardizes experimental settings to enable fair evaluation of imputation algorithms and identification of meaningful insights into the influence of domain-appropriate missing rates and patterns on model performance. Furthermore, TSI-Bench innovatively provides a systematic paradigm to tailor time series forecasting algorithms for imputation purposes. Our extensive study across 34,804 experiments, 28 algorithms, and 8 datasets with diverse missingness scenarios demonstrates TSI-Bench's effectiveness in diverse downstream tasks and potential to unlock future directions in time series imputation research and analysis. All source code and experiment logs are released at https://github.com/WenjieDu/AwesomeImputation.
研究动机与目标
- 标准化时间序列插补方法的评估,以实现跨数据集、模式和缺失率的公平比较。
- 评估不同缺失模式和缺失率如何影响插补性能,并识别领域特定需求。
- 探索是否可以有效地将预测骨干网络改造用于插补任务及其下游影响。
- 提供一个开源生态系统,支持可重复的基准测试和公平的超参数调优。
- 研究插补质量如何影响下游任务,如分类、回归和预测。
提出的方法
- 在 PyPOTS 生态系统之上构建并使用一个标准化流水线(TSI-Bench),用于数据加载、缺失模拟、预处理、插补和下游分析。
- 使用 8 个真实世界数据集,涵盖空气质量、交通、用电和医疗保健,具有不同的维度和缺失模式。
- 评估 28 种插补/预测模型(预测型和生成型),包括 Transformer、RNN、CNN、GNN、MLP,以及 VAE/GAN/扩散等方法和传统基线。
- 应用三种缺失模式(point、subsequence、block)和多种缺失率(如 10%、50%、90%)以评估鲁棒性。
- 将预测骨干适配到插补任务,以研究跨任务的可迁移性和性能。
- 使用 MAE、MSE 和 MRE 报告插补性能,以及推理时间和参数数量,并通过 PyPOTS 和 NNI 进行超参数调优。
实验结果
研究问题
- RQ1不同缺失模式(point、subsequence、block)和缺失率如何影响跨多样数据集的插补性能?
- RQ2当将预测骨干改造用于插补时,是否在真实世界环境中优于传统插补模型?
- RQ3插补质量如何影响下游任务,如分类、回归和预测?
- RQ4标准化的基准生态系统是否能促进公平比较并为领域特定的插补问题指引模型选择?
- RQ5基于数据集特征和缺失场景,提出哪些实际可操作的模型选择指南?
主要发现
- 没有单一模型在所有情境中占主导地位;性能随数据集、缺失模式和缺失率显著变化。
- 将预测架构改为插补骨干时可以很有效,有时甚至优于传统插补模型。
- 当缺失数据被高质量的插补填充时,插补提升下游任务性能(例如分类和回归)。
- 领域知情的数据处理和真实缺失模拟对可靠的插补基准测试至关重要。
- 基准测试揭示了在准确性之外,模型调优、数据预处理和计算效率的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。