QUICK REVIEW

[論文レビュー] Ultra-Fast Shapelets for Time Series Classification

Martin Wistuba, Josif Grabocka|arXiv (Cornell University)|Mar 17, 2015

Time Series Analysis and Forecasting参考文献 7被引用数 63

ひとこと要約

本稿では、計算コストの高い教師あり探索を必要とせず、ランダムに抽出されたシグマレットを用いることで、時系列分類のための新規手法であるUltra-Fast Shapelets (UFS) を提案する。判別性の高い部分列の冗長性を活用することで、UFSは訓練時間を最大3桁短縮しつつ、最先端の分類精度を達成し、長期間および多次元時系列データへの効率的な適用を可能にし、最小限の前処理オーバーヘッドで実現する。

ABSTRACT

Time series shapelets are discriminative subsequences and their similarity to a time series can be used for time series classification. Since the discovery of time series shapelets is costly in terms of time, the applicability on long or multivariate time series is difficult. In this work we propose Ultra-Fast Shapelets that uses a number of random shapelets. It is shown that Ultra-Fast Shapelets yield the same prediction quality as current state-of-the-art shapelet-based time series classifiers that carefully select the shapelets by being by up to three orders of magnitudes. Since this method allows a ultra-fast shapelet discovery, using shapelets for long multivariate time series classification becomes feasible. A method for using shapelets for multivariate time series is proposed and Ultra-Fast Shapelets is proven to be successful in comparison to state-of-the-art multivariate time series classifiers on 15 multivariate time series datasets from various domains. Finally, time series derivatives that have proven to be useful for other time series classifiers are investigated for the shapelet-based classifiers. It is shown that they have a positive impact and that they are easy to integrate with a simple preprocessing step, without the need of adapting the shapelet discovery algorithm.

研究の動機と目的

時系列分類における教師ありシグマレット探索の高い計算コストを軽減すること。
従来のシグマレット手法が計算コストのため実行不可能な長期間および多次元時系列データにおいて、効率的な分類を可能にすること。
時系列の導出値を前処理特徴量として用いることで、シグマレットベース分類器の予測性能に与える影響を評価すること。
多様な実世界のデータセットにおいて、UFSを最先端の多次元時系列分類手法と実証的に比較すること。
ランダムなシグマレット抽出が最適化された教師ありシグマレット選択の精度を同等または上回ることを示すこと。

提案手法

教師ありスコアリングや反復最適化を必要とせず、時系列部分列からランダムにシグマレットを抽出する手法であるUltra-Fast Shapelets (UFS) を提案する。
最小距離を各時系列部分列に対して計算することで、ランダムに生成されたシグマレットのプールから距離ベースの特徴を抽出する。
これらのランダムなシグマレットから導出された変換特徴空間に、標準的な分類器（例：ランダムフォレスト）を適用する。
各チャネルまたはストリームから抽出されたシグマレット特徴を連結することで、多次元時系列データへの拡張を実現する。
シグマレット探索プロセスを変更せずに、時系列の導出値を単純な前処理ステップとして統合し、特徴表現を強化する。
10-fold交差検証を用いた検証戦略を採用し、15の多次元データセットで性能を比較する。

実験結果

リサーチクエスチョン

RQ1教師あり反復的シグマレット探索手法と同等または優れた分類精度を達成できるか、ランダムなシグマレット抽出が可能か？
RQ2時系列の導出値を前処理として用いることで、シグマレットベース分類器の予測性能が向上するか？
RQ3従来手法が計算コストのため失敗する長期間および多次元時系列データにおいて、Ultra-Fast Shapeletsが効果的にスケーリング可能か？
RQ4多様な実世界のデータセットにおいて、UFSは最先端の多次元時系列分類手法と比較して、性能と速度の両面で優れているか？
RQ5抽出されたシグマレットの数が最終的な分類精度および安定性に与える影響は何か？

主な発見

Ultra-Fast Shapeletsは、最先端の教師ありシグマレット手法と同等の分類精度を達成しながら、訓練時間を最大3桁短縮した。
15の多次元時系列データセットにおいて、導出値を用いたUFS（ΔUFS）はSMTSより11/15のケース、NNDTWより14/15のケースで優れた性能を示した。
導出値を使用しないUFSでも、SMTSより10/15のケース、NNDTWより13/15のケースで優れた性能を示し、高いロバスト性を示した。
15のデータセットのうち11例で導出値の使用が精度を向上させ、ΔUFSは8例でUFSよりも低いテスト誤差率を達成した。
ランダムフォレストを用いたUFSは8つのデータセット（ΔUFS）および4つのデータセット（UFS）で最低のテスト誤差率を記録し、MTSBFやNNDTWを大多数のケースで上回った。
本手法は長期間および多次元時系列データに対してもスケーラブルで効果的であり、計算コストのため従来は実行不可能とされていた分野においても、シグマレットベース分類の実用的応用を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。