Skip to main content
QUICK REVIEW

[論文レビュー] Data augmentation using synthetic data for time series classification with deep residual networks

Hassan Ismail Fawaz, Germain Forestier|arXiv (Cornell University)|Aug 7, 2018
Time Series Analysis and Forecasting参考文献 15被引用数 73
ひとこと要約

本論文は、時系列分類のResNetのための DTWベースのDBA加重データ拡張を適用し、いくつかの小規模データセットで大きな利得を示し、アンサンブルと組み合わせた場合のロバスト性が向上することを示す。

ABSTRACT

Data augmentation in deep neural networks is the process of generating artificial data in order to reduce the variance of the classifier with the goal to reduce the number of errors. This idea has been shown to improve deep neural network's generalization capabilities in many computer vision tasks such as image recognition and object localization. Apart from these applications, deep Convolutional Neural Networks (CNNs) have also recently gained popularity in the Time Series Classification (TSC) community. However, unlike in image recognition problems, data augmentation techniques have not yet been investigated thoroughly for the TSC task. This is surprising as the accuracy of deep learning models for TSC could potentially be improved, especially for small datasets that exhibit overfitting, when a data augmentation method is adopted. In this paper, we fill this gap by investigating the application of a recently proposed data augmentation technique based on the Dynamic Time Warping distance, for a deep learning model for TSC. To evaluate the potential of augmenting the training set, we performed extensive experiments using the UCR TSC benchmark. Our preliminary experiments reveal that data augmentation can drastically increase deep CNN's accuracy on some datasets and significantly improve the deep model's accuracy when the method is used in an ensemble approach.

研究の動機と目的

  • 深層ネットワークを用いて時系列分類(TSC)の過学習と限られた訓練データに対処する。
  • DTW(Dynamic Time Warping)ベースの合成データ拡張法をTSCに対して評価する。
  • UCR TSCベンチマークを用いて、深いResNetアーキテクチャに対する拡張の影響を評価する。
  • データ拡張の潜在的な悪影響を緩和するためのエンサンブル戦略を探る。

提案手法

  • 単変量時系列に適した深いResidual Network(ResNet)アーキテクチャを、3つの残差ブロックを用いて使用する。
  • 訓練セットから合成時系列を生成するために、DTWベースの加重平均(DBA)拡張を適用し、Average Selected方式でサンプルを選択する。
  • 最も多く表れたクラスの2倍のサイズに相当する合成データを生成する。
  • 初期化と最適化設定を一定にした状態で、拡張有り/拡張無しのモデルを訓練する。
  • 拡張ありと拡張なしのResNetの予測を、事後確率のアンサンブル平均で結合する。

実験結果

リサーチクエスチョン

  • RQ1DTWベースの合成データ拡張は、UCRアーカイブの時系列分類タスクにおいてResNetの性能を改善しますか?
  • RQ2拡張が性能を改善または悪化させるデータセットはどれで、影響はどれほど大きいですか?
  • RQ3拡張ありモデルと拡張なしモデルのエンサンブルは、データセット全体でより堅牢な改善を提供できますか?
  • RQ4DiatomSizeReductionやWineのような小さく難しいデータセットに対する拡張の影響は何ですか?

主な発見

  • データ拡張は、いくつかのデータセットで深層モデルの精度を劇的に改善することがある(例:DiatomSizeReduction:30%から96%)。
  • 拡張は一部データセットで小さな負の影響を与えることがあるが、全体としては精度を大幅に低下させない。
  • 拡張ありと拡張なしのResNetのエンサンブルは、性能低下を示すデータセット数を減らし、他のデータセットでの利得を維持する。
  • DiatomSizeReductionデータセットは訓練例がわずか16件しかなく、拡張は大きな利得を生む一方、DTWを用いた1-NNは97%の精度を達成しており、単純な手法にとってデータセットが容易であることを示している。
  • ウィルコクソン符号検定は、アンサンブルの改善が単独モデルより有意差があることを示す(p値 < 0.0005)。
  • Wineデータセットでも拡張による重要な改善が見られ、データセット依存の利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。