QUICK REVIEW

[論文レビュー] Monash University, UEA, UCR Time Series Regression Archive

Chang Wei Tan, Christoph Bergmeir|arXiv (Cornell University)|Jun 19, 2020

Time Series Analysis and Forecasting参考文献 17被引用数 11

ひとこと要約

本論文は、時間系列回帰（TSR）のための最初のベンチマークアーカイブを紹介しており、医療、センサー、環境モニタリングなど多様な分野にまたがる19の異なるデータセットを含む。各データセットは次元数、不均等な長さ、欠損値を有しており、一般用途のTSR研究の基盤を提供するための標準化されたデータと初期モデルのベンチマークを提供する。これは、分類や予測とは異なり、時間系列研究における重要な空白を埋めるものである。

ABSTRACT

Time series research has gathered lots of interests in the last decade, especially for Time Series Classification (TSC) and Time Series Forecasting (TSF). Research in TSC has greatly benefited from the University of California Riverside and University of East Anglia (UCR/UEA) Time Series Archives. On the other hand, the advancement in Time Series Forecasting relies on time series forecasting competitions such as the Makridakis competitions, NN3 and NN5 Neural Network competitions, and a few Kaggle competitions. Each year, thousands of papers proposing new algorithms for TSC and TSF have utilized these benchmarking archives. These algorithms are designed for these specific problems, but may not be useful for tasks such as predicting the heart rate of a person using photoplethysmogram (PPG) and accelerometer data. We refer to this problem as Time Series Regression (TSR), where we are interested in a more general methodology of predicting a single continuous value, from univariate or multivariate time series. This prediction can be from the same time series or not directly related to the predictor time series and does not necessarily need to be a future value or depend heavily on recent values. To the best of our knowledge, research into TSR has received much less attention in the time series research community and there are no models developed for general time series regression problems. Most models are developed for a specific problem. Therefore, we aim to motivate and support the research into TSR by introducing the first TSR benchmarking archive. This archive contains 19 datasets from different domains, with varying number of dimensions, unequal length dimensions, and missing values. In this paper, we introduce the datasets in this archive and did an initial benchmark on existing models.

研究の動機と目的

時間系列分類（TSC）や時間系列予測（TSF）とは異なる、時間系列回帰（TSR）の分野において標準化されたベンチマークリソースが不足しているという問題に対処すること。
不均等な長さや欠損値を含む多様な特徴を有する実世界のデータセットの収集を通じて、一般用途のTSR手法開発を支援すること。
専用のベンチマークインfraの必要性と実現可能性を示すことで、TSR分野における広範な研究関心を喚起すること。
新規TSRアーカイブ上で既存モデルの初期ベンチマークを提供し、ベースラインパフォーマンスを確立すること。

提案手法

著者らは、医療、センサー、環境モニタリングなど多様な分野から19の時間系列データセットを収集し、広範な適用可能性を確保した。
データセットは、単変量および多変量の時間系列を含み、長さのばらつき、欠損値、非一様なサンプリングを含む。
標準的な機械学習パイプラインとの互換性を確保しつつ、元のデータ特性を可能な限り保持するように前処理を実施した。
フィードフォワードネットワーク、畳み込みネットワーク、再帰型ネットワークなどの既存モデルを、すべてのデータセット上で評価し、ベースラインパフォーマンスを確立した。
評価には、平均絶対誤差（MAE）や平均二乗誤差（MSE）といった標準的な回帰指標を、標準的なトレイン・テスト分割に基づいて用いた。
モデルパフォーマンスのトレンドやデータセット固有の課題を特定するため、複数データセットにわたる分析を含めたベンチマークプロセスを実施した。

実験結果

リサーチクエスチョン

RQ1一般用途の時間系列回帰（TSR）ベンチマークに適した、実世界の時間系列データセットの主な特徴は何か？
RQ2データ品質や構造のばらつきが著しい多様なTSRデータセットにおいて、既存の機械学習モデルのパフォーマンスはどのように変動するか？
RQ3TSC や TSF の文脈で観察されたモデルパフォーマンスのトレンドが、TSRの文脈に一般化できる範囲はどの程度か？
RQ4欠損値や不均等な長さといった一般的なデータ課題が、TSRモデルのパフォーマンスにどのように影響を与えるか？
RQ5標準化されたベンチマークアーカイブは、TSR研究における再現可能性と進展をどのように向上させられるか？

主な発見

提案されたTSRベンチマークアーカイブには、心拍数予測のためのPPGや加速度計データを含む、多様な分野からの19のデータセットが含まれており、実世界の応用において広範な関連性を示している。
データセットは長さ、次元数、データ品質の点で顕著な異質性を示しており、欠損値や非一様なサンプリングを含む。
フィードフォワードネットワークや再帰型ニューラルネットワークなどのベースラインモデルは、データセットごとにパフォーマンスにばらつきを示し、常に優れた性能を発揮するモデルは存在しなかった。
欠損値の割合が高い、またはシーケンス長さのばらつきが著しいデータセットでは、モデルのパフォーマンスが著しく低下した。
初期ベンチマークから、TSC や TSF 用に設計された既存のモデルは、適応なしではTSRに直接適用できないことが明らかになった。これは、専用のTSR手法の開発の必要性を強調している。
このアーカイブは再現可能な評価を可能にし、一般用途のTSRアルゴリズムの今後の開発の基盤を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。