Skip to main content
QUICK REVIEW

[論文レビュー] Use Short Isometric Shapelets to Accelerate Binary Time Series Classification

Shu, Weibo, Yao, Yaqiang|arXiv (Cornell University)|Dec 27, 2019
Time Series Analysis and Forecasting被引用数 8
ひとこと要約

本稿では、距離計算を高速化するための形状素子長の固定とアンサンブル分類器の単一線形分類器への置き換えにより、二値時系列分類を高速化する新規アルゴリズムであるShort Isometric Shapelet Transform (SIST)を提案する。SISTは、データセット全体で訓練時間を94.4%から99.5%まで短縮しながら、ほぼ損失のない精度を達成しており、性能を犠牲にすることなく顕著な効率性の向上を示している。

ABSTRACT

In the research area of time series classification, the ensemble shapelet transform algorithm is one of state-of-the-art algorithms for classification. However, its high time complexity is an issue to hinder its application since its base classifier shapelet transform includes a high time complexity of a distance calculation and shapelet selection. Therefore, in this paper we introduce a novel algorithm, i.e. short isometric shapelet transform, which contains two strategies to reduce the time complexity. The first strategy of SIST fixes the length of shapelet based on a simplified distance calculation, which largely reduces the number of shapelet candidates as well as speeds up the distance calculation in the ensemble shapelet transform algorithm. The second strategy is to train a single linear classifier in the feature space instead of an ensemble classifier. The theoretical evidences of these two strategies are presented to guarantee a near-lossless accuracy under some preconditions while reducing the time complexity. Furthermore, empirical experiments demonstrate the superior performance of the proposed algorithm.

研究の動機と目的

  • 時系列分類におけるアンサンブル形状素子変換(ST)アルゴリズムの高い時間計算量を解消すること。
  • 形状素子抽出および特徴空間構築における計算コストを低減しつつ、分類精度を維持すること。
  • 計算コストの高いアンサンブル分類器を、より高速な訓練を可能にする単一の線形分類器に置き換えること。
  • 時間計算量の低減が最小限の精度損失で実現される理論的裏付けを提供すること。
  • 提案されたSISTアルゴリズムの有効性と効率性を、複数の二値時系列データセット上で実験的に検証すること。

提案手法

  • 距離計算の簡略化に基づく形状素子長の固定により、形状素子候補の数を削減し、距離計算を高速化する。
  • 左および右の緩和要因を用いた緩和された固定距離測度を用いることで、ロバスト性と効率性を向上させる。
  • STにおけるアンサンブル分類器を、形状素子に基づく特徴空間で学習された単一の線形分類器に置き換える。
  • 理論的分析により、これらの2つの戦略が特定の前提条件下でほぼ損失のない精度を維持することを示している。
  • すべての時系列が同じ長さである等長時系列を活用することで、形状素子計算を単純化する。
  • 実験的評価では、272個の二値時系列データセットを用い、ハイパーパrameter設定の下でSISTとベースラインのアンサンブルSTを比較する。

実験結果

リサーチクエスチョン

  • RQ1形状素子長を固定することで、形状素子に基づく時系列分類の時間計算量を顕著に低減できるか、かつ精度を損なわないか?
  • RQ2形状素子特徴空間においてアンサンブル分類器を単一の線形分類器に置き換えることで、著しい高速化が達成され、競争力のある性能を維持できるか?
  • RQ3形状素子長、緩和要因、オーバーラップ削除などのハイパーパrameter設定は、多様な二値時系列データセットにおいてSISTの最適なパフォーマンスをもたらすか?
  • RQ42つの提案戦略は、異なるデータスケールの領域で、時間短縮にどのように寄与するか?
  • RQ5ベースラインのアンサンブルSTアルゴリズムと比較して、SISTのパフォーマンス向上は統計的に有意であるか?

主な発見

  • SISTは、評価されたすべてのデータセットでアンサンブル形状素子変換の総訓練時間を94.4%から99.5%まで短縮した。
  • 小規模データセットでは、最初の戦略(形状素子長の固定)が時間短縮に最も寄与するが、大規模データセットでは、2番目の戦略(単一線形分類器)が支配的である。
  • 平均して、SISTは評価された272個の二値時系列データセットの大部分で、ベースラインのアンサンブルSTよりも高い精度を達成した。
  • フリードマン検定により、SISTは「オーバーラップ形状素子を削除する」ことに対して「削除しない」こと、および「形状素子長3」に対して「形状素子長4」を選ぶ傾向が顕著に強いことが確認された。
  • 緩和要因に関しては、「3·3」、「3·4」、「4·4」の間には有意な差が認められなかったが、これらは「4·3」よりも好ましいとされた。
  • SISTは一般的に形状素子の数が多い方が好ましいが、最適な設定はデータセットやハイパーパrameterによって異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。