QUICK REVIEW

[論文レビュー] The Great Time Series Classification Bake Off: An Experimental Evaluation of Recently Proposed Algorithms. Extended Version

Anthony Bagnall, Aaron Bostrom|arXiv (Cornell University)|Feb 4, 2016

Time Series Analysis and Forecasting被引用数 40

ひとこと要約

この論文は、WEKAに統合された統一されたJavaフレームワークを用いて、85個の標準化・正規化済みデータセットに対して100回の再サンプリング実験を実施し、18個の最近提案された時系列分類（TSC）アルゴリズムを評価している。集合的変換アンサンブル（COTE）は、他のすべてのアルゴリズムやベンチマークを著しく上回り、動的時系列適合（DTW）よりも平均で8%高い正確性を達成しており、きめ細やかで再現可能な条件下で、現在までで最も正確なTSC手法であることが立証された。

ABSTRACT

In the last five years there have been a large number of new time series classification algorithms proposed in the literature. These algorithms have been evaluated on subsets of the 47 data sets in the University of California, Riverside time series classification archive. The archive has recently been expanded to 85 data sets, over half of which have been donated by researchers at the University of East Anglia. Aspects of previous evaluations have made comparisons between algorithms difficult. For example, several different programming languages have been used, experiments involved a single train/test split and some used normalised data whilst others did not. The relaunch of the archive provides a timely opportunity to thoroughly evaluate algorithms on a larger number of datasets. We have implemented 18 recently proposed algorithms in a common Java framework and compared them against two standard benchmark classifiers (and each other) by performing 100 resampling experiments on each of the 85 datasets. We use these results to test several hypotheses relating to whether the algorithms are significantly more accurate than the benchmarks and each other. Our results indicate that only 9 of these algorithms are significantly more accurate than both benchmarks and that one classifier, the Collective of Transformation Ensembles, is significantly more accurate than all of the others. All of our experiments and results are reproducible: we release all of our code, results and experimental details and we hope these experiments form the basis for more rigorous testing of new algorithms in the future.

研究の動機と目的

従来のTSCアルゴリズム評価における一貫性の欠如、例えば単一のトレイン/テスト分割、不一致するデータ正規化、再現性の欠如を是正するため。
Javaによる統一実装とWEKAツールキットを用いた、TSCアルゴリズムを評価する共通で標準化されたフレームワークを確立するため。
一貫した前処理、再サンプリング、モデル選択を適用することで、今後のTSC研究の公平で再現可能かつ透明なベンチマークを提供するため。
さまざまな時系列問題タイプにおいて、標準ベンチマーク（1-NN DTWおよび1-NNユークリッド距離）を著しく上回るアルゴリズムを特定するため。
すべてのコード、結果、実験詳細を公開することで、再現性を促進し、今後のアルゴリズム評価の基盤を提供するため。

提案手法

18個のすべてのアルゴリズムと2つのベンチマーク分類器（1-NN DTWおよび1-NNユークリッド距離）が、WEKA機械学習ツールキットに統合された単一のJavaフレームワークに実装された。
UCRアーカイブの85個の時系列データセットすべてが正規化され、性能推定の信頼性を高めるために100回の繰り返し再サンプリング実験が実施された。
過学習を避けるために、各アルゴリズムに対して交差検証を用いたモデル選択が実施され、公平な比較が保証された。
集合的変換アンサンブル（COTE）は、シグネチャ、エラスティック距離、ランダムフォレストを含む複数の基本分類器を組み合わせたメタアンサンブルとして実装された。
性能差の有意性を評価するために、非パラメトリック検定が用いられ、差が意味を持つかどうかを分析した。
すべての実験コード、結果、構成ファイルが公開され、完全な再現性と透明性が確保された。

実験結果

リサーチクエスチョン

RQ1拡張されたUCRデータセット集において、集合的変換アンサンブル（COTE）は、他のすべての評価済みTSCアルゴリズムおよび標準ベンチマークを著しく上回る正確性を示すか？
RQ2最近のTSCアルゴリズムは、さまざまな時系列問題タイプにおいて、1-NN DTW や 1-NN ユークリッド距離といった伝統的手法を一貫して上回るか？
RQ3UCRアーカイブにおけるデータ正規化の不一致やフォーマットエラーが、アルゴリズム評価の性能にどのようなバイアスをもたらすか？
RQ4統一的かつ再現可能な実験フレームワークは、TSCアルゴリズム比較のばらつきを低減し、信頼性を向上させられるか？
RQ5スペクトログラム、心電図（ECG）、シミュレートデータなどの特定の問題カテゴリにおいて、シグネチャベース、アンサンブル、エラスティック距離などのアルゴリズムタイプのうち、どれが最も優れた性能を示すか？

主な発見

COTEは、全85個のデータセットにおいて平均的に最高の正確性を達成し、他のすべてのアルゴリズムおよび2つのベンチマークを著しく上回った。
評価された18個のアルゴリズムのうち、1-NN DTWおよび1-NN ユークリッド距離の両方を著しく上回る正確性を示したのはわずか9個にとどまった。
COTEは、以前の最先端のベースラインとされていた1-NN DTWよりも平均で8%高い正確性を示した。
シグネチャ変換およびエラスティック距離ベースの手法（例：EE）は、COTE内の上位パフォーマンスを示す主要な構成要素であり、その優れた性能に貢献した。
スペクトログラムデータセットでは、ベクトルベース分類器が100%の正確性を達成したが、COTEは全問題タイプにおいて全体で最も正確な性能を示した。
本研究は、データ品質の問題——例えばECG200における誤った正規化、Coffeeデータの正規化未実施——が、性能比較に顕著なバイアスをもたらし、アルゴリズムの正確性が高めに評価される原因となる可能性があることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。