Skip to main content
QUICK REVIEW

[论文解读] Oversampling for Imbalanced Time Series Data

Tuanfei Zhu, Yaping Lin|arXiv (Cornell University)|Apr 14, 2020
Imbalanced Data Classification Techniques参考文献 49被引用 5
一句话总结

本文提出OHIT,一种针对高维、类别不平衡时间序列数据的结构保持型过采样方法。通过基于密度比的共享近邻聚类识别少数类模式,估计基于收缩的协方差矩阵,并利用多元正态分布生成合成样本,OHIT在多个单模态和多模态时间序列数据集上,在F1、G-mean和AUC指标上均优于当前最先进方法。

ABSTRACT

Many important real-world applications involve time-series data with skewed distribution. Compared to conventional imbalance learning problems, the classification of imbalanced time-series data is more challenging due to high dimensionality and high inter-variable correlation. This paper proposes a structure preserving Oversampling method to combat the High-dimensional Imbalanced Time-series classification (OHIT). OHIT first leverages a density-ratio based shared nearest neighbor clustering algorithm to capture the modes of minority class in high-dimensional space. It then for each mode applies the shrinkage technique of large-dimensional covariance matrix to obtain accurate and reliable covariance structure. Finally, OHIT generates the structure-preserving synthetic samples based on multivariate Gaussian distribution by using the estimated covariance matrices. Experimental results on several publicly available time-series datasets (including unimodal and multimodal) demonstrate the superiority of OHIT against the state-of-the-art oversampling algorithms in terms of F1, G-mean, and AUC. The code of OHIT is available at github.com/zhutuanfei/OHIT.

研究动机与目标

  • 解决具有复杂变量间相关性的高维、类别不平衡时间序列数据分类挑战。
  • 克服传统过采样方法在时间序列数据中无法保持少数类模式内在结构的局限性。
  • 开发一种能有效捕捉高维空间中少数类样本单模态与多模态分布的方法。
  • 通过生成保持底层统计结构的合成样本,提升在类别不平衡时间序列数据集上的分类性能。

提出的方法

  • 应用基于密度比的共享近邻聚类算法,识别高维时间序列空间中少数类内的不同模式。
  • 对大维度协方差矩阵使用收缩技术,以获得每个识别出模式的稳定且精确的协方差结构估计。
  • 利用参数化为估计均值和收缩协方差矩阵的多元正态分布生成合成样本。
  • 通过确保合成样本反映数据真实底层几何结构,保留少数类模式的结构与分布特性。
  • 整合聚类与协方差估计,以有效处理少数类的单模态与多模态分布。
  • 通过利用高维聚类中估计的协方差结构,确保生成的合成样本在结构上与原始数据一致。

实验结果

研究问题

  • RQ1基于聚类的方法能否有效识别高维时间序列数据少数类中的多个模式?
  • RQ2对大维度协方差矩阵进行基于收缩的估计,是否能提升在类别不平衡时间序列设置下合成样本生成的可靠性?
  • RQ3在多数组类不平衡时间序列数据集中,保留少数类模式协方差结构在多大程度上能提升分类性能?
  • RQ4在多样化的时间序列数据集上,OHIT与当前最先进过采样方法相比,在F1、G-mean和AUC指标上的表现如何?

主要发现

  • OHIT在多个公开可用的时间序列数据集上表现优于当前最先进过采样方法。
  • 该方法在单模态与多模态少数类分布下,均一致提升了F1分数、G-mean和AUC。
  • 基于密度比的聚类方法有效识别了高维时间序列空间中少数类的模式。
  • 基于收缩的协方差估计增强了高维环境下合成样本生成的稳定性和可靠性。
  • OHIT在处理时间序列数据中典型的复杂变量间相关性方面表现出鲁棒性。
  • OHIT的代码已公开发布于GitHub,便于复现与进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。