Skip to main content
QUICK REVIEW

[論文レビュー] The UEA multivariate time series classification archive, 2018

Anthony Bagnall, Hoang Anh Dau|arXiv (Cornell University)|Oct 31, 2018
Time Series Analysis and Forecasting参考文献 11被引用数 96
ひとこと要約

この論文は、30データセットを持つ最初のUEA多変量時系列分類アーカイブ(2018年)を紹介します。等長フォーマットを標準化し、訓練/テスト分割を提供して厳密な MTSC 評価を可能にします。

ABSTRACT

In 2002, the UCR time series classification archive was first released with sixteen datasets. It gradually expanded, until 2015 when it increased in size from 45 datasets to 85 datasets. In October 2018 more datasets were added, bringing the total to 128. The new archive contains a wide range of problems, including variable length series, but it still only contains univariate time series classification problems. One of the motivations for introducing the archive was to encourage researchers to perform a more rigorous evaluation of newly proposed time series classification (TSC) algorithms. It has worked: most recent research into TSC uses all 85 datasets to evaluate algorithmic advances. Research into multivariate time series classification, where more than one series are associated with each class label, is in a position where univariate TSC research was a decade ago. Algorithms are evaluated using very few datasets and claims of improvement are not based on statistical comparisons. We aim to address this problem by forming the first iteration of the MTSC archive, to be hosted at the website www.timeseriesclassification.com. Like the univariate archive, this formulation was a collaborative effort between researchers at the University of East Anglia (UEA) and the University of California, Riverside (UCR). The 2018 vintage consists of 30 datasets with a wide range of cases, dimensions and series lengths. For this first iteration of the archive we format all data to be of equal length, include no series with missing data and provide train/test splits.

研究の動機と目的

  • MTSC(Multivariate Time Series Classification)の公開された標準化ベンチマークを提供する。
  • 小規模でドメイン特化されたセットを超えてMTSC評価を拡張し、厳密な比較を促進する。
  • データを等長に整形し欠損値をなくし、すべての問題について訓練/テスト分割を提供する。
  • 研究者による再利用を促進するため、timeseriesclassification.comにアーカイブと付随ツールをホストする。
  • データセットを HAR、Motion、ECG、EEG/MEG、Audio などのドメインに分類し、データソースを文書化する。

提案手法

  • 多様なドメインにまたがる30データセットを含むMTSCアーカイブの最初のイテレーションを構築する。
  • すべてのデータを等長に標準化し欠損データを除去し、明示的な訓練/テスト分割を提供する。
  • データをWekaのmulti-instance形式で、次元ごとの表現とリレーショナル属性を用いて提供する。
  • 実験間の柔軟性のため、multivariate ARFFファイルを分割するダウンロード可能なコードを提供する。
  • 全アーカイブ(zip約2GB)をまとめ、timeseriesclassification.comで公開アクセスしやすくホストする。

実験結果

リサーチクエスチョン

  • RQ12018年のUEAアーカイブにはMTSCデータセットはいくつ含まれており、それらはどのドメインをカバーしていますか?
  • RQ2公正な比較のためにMTSC問題を標準化するために使用されるデータフォーマットと前処理の手順は何ですか?
  • RQ3各データセットの訓練/テスト分割はどのように定義され、提供されていますか?
  • RQ4MTSCデータセットを操作・再利用するために提供されているツールは何ですか(例:ARFFファイルの分割)?

主な発見

  • 2018年版には30の多変量時系列分類データセットが含まれています。
  • すべての問題は等長に再フォーマットされ、欠損データがなく、訓練/テスト分割を含みます。
  • アーカイブは各問題ディレクトリとWeka multi-instance形式を備えた約2GBの単一zipファイルとして利用可能です。
  • データはHuman Activity Recognition、Motion、ECG、EEG/MEG、Audio Spectra、Othersなどのドメインに整理されています。
  • 研究間の再利用を促進するため、multivariate ARFFファイルを分割するコードを提供しています。
  • アーカイブはwww.timeseriesclassification.comで公開アクセス用にホストされています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。