[论文解读] Ultra-Fast Shapelets for Time Series Classification
本文提出了一种名为超快速形状子(Ultra-Fast Shapelets, UFS)的新方法,用于时间序列分类。该方法通过随机采样形状子而非计算成本高昂的有监督搜索,实现了高效的时间序列分类。通过利用判别性子序列的冗余性,UFS在将训练时间减少高达三个数量级的同时,实现了最先进(SOTA)的分类准确率,从而使得长序列和多变量时间序列的分类应用成为可能,且预处理开销极低。
Time series shapelets are discriminative subsequences and their similarity to a time series can be used for time series classification. Since the discovery of time series shapelets is costly in terms of time, the applicability on long or multivariate time series is difficult. In this work we propose Ultra-Fast Shapelets that uses a number of random shapelets. It is shown that Ultra-Fast Shapelets yield the same prediction quality as current state-of-the-art shapelet-based time series classifiers that carefully select the shapelets by being by up to three orders of magnitudes. Since this method allows a ultra-fast shapelet discovery, using shapelets for long multivariate time series classification becomes feasible. A method for using shapelets for multivariate time series is proposed and Ultra-Fast Shapelets is proven to be successful in comparison to state-of-the-art multivariate time series classifiers on 15 multivariate time series datasets from various domains. Finally, time series derivatives that have proven to be useful for other time series classifiers are investigated for the shapelet-based classifiers. It is shown that they have a positive impact and that they are easy to integrate with a simple preprocessing step, without the need of adapting the shapelet discovery algorithm.
研究动机与目标
- 解决时间序列分类中有监督形状子发现带来的高计算成本问题。
- 实现在传统形状子方法因计算成本过高而不可行的长序列和多变量时间序列上的高效分类。
- 评估时间序列导数作为预处理特征对基于形状子分类器预测能力的影响。
- 在多样化的现实世界数据集上,通过实证比较UFS与最先进多变量时间序列分类器的性能。
- 证明随机形状子采样可达到甚至超越经过优化的有监督形状子选择方法的准确率。
提出的方法
- 提出超快速形状子(UFS)方法,通过从时间序列子序列中随机采样形状子,无需有监督评分或迭代优化。
- 使用一组随机生成的形状子,通过计算与每个时间序列子序列的最小距离,提取基于距离的特征。
- 在由这些随机形状子导出的变换特征空间上应用标准分类器(如随机森林)。
- 通过将每个通道或数据流中提取的形状子特征拼接,将该方法扩展至多变量时间序列。
- 将时间序列导数作为简单预处理步骤集成,以增强特征表示,而无需修改形状子发现过程。
- 采用10折交叉验证的验证策略,并在15个多变量数据集上比较性能。
实验结果
研究问题
- RQ1随机采样形状子能否实现与有监督、迭代形状子发现方法相当或更优的分类准确率?
- RQ2将时间序列导数作为预处理特征是否能提升基于形状子分类器的预测能力?
- RQ3UFS能否在传统方法因计算成本过高而失效的长序列和多变量时间序列上实现有效扩展?
- RQ4在多样化的真实世界数据集上,UFS与最先进多变量时间序列分类器相比,在性能和速度方面表现如何?
- RQ5采样形状子的数量对最终分类准确率和稳定性有何影响?
主要发现
- 超快速形状子(UFS)在将训练时间减少高达三个数量级的同时,实现了与最先进有监督形状子方法相当的分类准确率。
- 在15个多变量时间序列数据集上,使用导数的UFS(ΔUFS)在11个数据集中优于SMTS,在14个数据集中优于NNDTW。
- 即使不使用导数,UFS在10个数据集中仍优于SMTS,在13个数据集中优于NNDTW,显示出良好的鲁棒性。
- 在11个数据集中,使用时间序列导数提升了准确率,且ΔUFS在8个数据集中测试误差率低于UFS。
- 使用随机森林的UFS在8个数据集中(ΔUFS)和4个数据集中(UFS)实现了最低的测试误差率,多数情况下优于MTSBF和NNDTW。
- 该方法在长序列和多变量时间序列上具有可扩展性和有效性,使得基于形状子的分类在以往因计算成本过高而不可行的领域中得以实际应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。