Skip to main content
QUICK REVIEW

[論文レビュー] Oversampling for Imbalanced Time Series Data

Tuanfei Zhu, Yaping Lin|arXiv (Cornell University)|Apr 14, 2020
Imbalanced Data Classification Techniques参考文献 49被引用数 5
ひとこと要約

本稿では、高次元で不均衡な時系列データに対して構造を保ったオーバーサンプリング手法であるOHITを提案する。密度比に基づく共有近傍探索を用いた少数クラスモードのクラスタリング、正則化に基づく共分散行列の推定、多次元正規分布を用いた合成サンプルの生成により、複数の単モードおよび多モード時系列データセットにおいて、F1、G-mean、AUCの指標で最先端の手法を上回る性能を達成した。

ABSTRACT

Many important real-world applications involve time-series data with skewed distribution. Compared to conventional imbalance learning problems, the classification of imbalanced time-series data is more challenging due to high dimensionality and high inter-variable correlation. This paper proposes a structure preserving Oversampling method to combat the High-dimensional Imbalanced Time-series classification (OHIT). OHIT first leverages a density-ratio based shared nearest neighbor clustering algorithm to capture the modes of minority class in high-dimensional space. It then for each mode applies the shrinkage technique of large-dimensional covariance matrix to obtain accurate and reliable covariance structure. Finally, OHIT generates the structure-preserving synthetic samples based on multivariate Gaussian distribution by using the estimated covariance matrices. Experimental results on several publicly available time-series datasets (including unimodal and multimodal) demonstrate the superiority of OHIT against the state-of-the-art oversampling algorithms in terms of F1, G-mean, and AUC. The code of OHIT is available at github.com/zhutuanfei/OHIT.

研究の動機と目的

  • 複雑な変数間相関を示す高次元で不均衡な時系列データの分類課題に取り組む。
  • 従来のオーバーサンプリング手法が、時系列データにおける少数クラスパターンの内在的構造を適切に保てないという限界を克服する。
  • 高次元空間における少数クラスサンプルの単モードおよび多モード分布を効果的に捉える手法を開発する。
  • 少数クラスの潜在的統計的構造を維持する合成サンプルの生成により、不均衡な時系列データセットにおける分類性能を向上させる。

提案手法

  • 高次元時系列空間における少数クラス内に存在する異なるモードを特定するため、密度比に基づく共有近傍探索クラスタリング手法を適用する。
  • 大規模な次元の共分散行列に対して正則化技術を用い、各識別されたモードの共分散構造を安定的かつ正確に推定する。
  • 推定された平均および正則化共分散行列をパrameterとする多次元正規分布を用いて合成サンプルを生成する。
  • 合成サンプルが元のデータの真の幾何構造を反映するようにすることで、少数クラスパターンの構造的および分布的特性を保持する。
  • クラスタリングと共分散推定を統合し、単モードおよび多モードの少数クラス分布を効果的に処理する。
  • 高次元クラスタからの推定共分散構造を活用することで、生成された合成サンプルが元データと構造的に整合するように保証する。

実験結果

リサーチクエスチョン

  • RQ1クラスタリングに基づくアプローチは、高次元時系列データの少数クラスにおける複数のモードを効果的に同定できるか?
  • RQ2大規模な次元の共分散行列に対する正則化推定は、不均衡な時系列設定における合成サンプル生成の信頼性を向上させるか?
  • RQ3少数クラスモードの共分散構造を保持することは、不均衡な時系列データセットにおける分類性能をどの程度向上させるか?
  • RQ4多様な時系列データセットにおいて、OHITは最先端のオーバーサンプリング手法と比較してF1、G-mean、AUCの観点でどのように性能を発揮するか?

主な発見

  • OHITは、複数の公開済み時系列データセットにおいて、最先端のオーバーサンプリング手法を上回る優れた性能を達成した。
  • 本手法は、単モードおよび多モードの少数クラス分布の両方において、F1スコア、G-mean、AUCの指標を一貫して向上させた。
  • 密度比に基づくクラスタリングの活用により、高次元時系列空間における少数クラスモードの効果的同定が可能になった。
  • 正則化共分散推定により、高次元環境下での合成サンプル生成の安定性と信頼性が向上した。
  • OHITは、時系列データに一般的に見られる複雑な変数間相関を効果的に処理する柔軟性を示した。
  • OHITのコードはGitHubで公開されており、再現性の確保とさらなる研究促進に貢献している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。