QUICK REVIEW

[論文レビュー] Human activity recognition based on time series analysis using U-Net

Yong Zhang, Yu Zhang|arXiv (Cornell University)|Sep 20, 2018

Context-Aware Activity Recognition Systems参考文献 29被引用数 26

ひとこと要約

この論文は、加速度計時系列を1列多チャンネルの画像形式に変換することで、U-Netベースの深層学習フレームワークを提案し、人間の行動認識（HAR）を実現する。手動での特徴量抽出を不要とし、ピクセル単位の行動ラベル付けを可能にすることで、4つのベンチマークデータセットにおいて、SVM、kNN、DT、QDA、CNN、FCNを上回る最先端の精度とF1スコアを達成するとともに、高速な推論速度を維持する。

ABSTRACT

Traditional human activity recognition (HAR) based on time series adopts sliding window analysis method. This method faces the multi-class window problem which mistakenly labels different classes of sampling points within a window as a class. In this paper, a HAR algorithm based on U-Net is proposed to perform activity labeling and prediction at each sampling point. The activity data of the triaxial accelerometer is mapped into an image with the single pixel column and multi-channel which is input into the U-Net network for training and recognition. Our proposal can complete the pixel-level gesture recognition function. The method does not need manual feature extraction and can effectively identify short-term behaviors in long-term activity sequences. We collected the Sanitation dataset and tested the proposed scheme with four open data sets. The experimental results show that compared with Support Vector Machine (SVM), k-Nearest Neighbor (kNN), Decision Tree(DT), Quadratic Discriminant Analysis (QDA), Convolutional Neural Network (CNN) and Fully Convolutional Networks (FCN) methods, our proposal has the highest accuracy and F1-socre in each dataset, and has stable performance and high robustness. At the same time, after the U-Net has finished training, our proposal can achieve fast enough recognition speed.

研究の動機と目的

従来のスライディングウィンドウHAR手法におけるマルチクラスウィンドウ問題に対処すること。
長期間のシーケンスにおいて、各サンプリングポイントでエンドツーエンドのピクセル単位の行動ラベル付けを可能にすること。
生の時系列入力を用いた深層学習により、手動での特徴量設計を排除すること。
従来の機械学習および深層学習ベースラインと比較して、認識精度と頑健性を向上させること。
トレーニング後、リアルタイムHARアプリケーションに適した高速な推論速度を達成すること。

提案手法

三軸加速度計時系列を、U-Netアーキテクチャへの入力として使用する1列多チャンネルの画像表現に変換すること。
各タイムステップ（ピクセル単位の予測）で行動クラスラベルを予測できるように、U-Netモデルをエンドツーエンドで訓練すること。
エンコーダ・デコーダ構造とスキップ接続を活用し、順序データにおける空間的・時間的コンテキストを保持すること。
特徴量学習のため、バッチ正規化とReLU活性化関数を併用した畳み込み層を適用すること。
シーケンスレベルのラベルに基づく教師あり学習のため、交差エントロピー損失を用いること。
U-Netが時間ステップを1次元の画像上の空間的位置として扱うことで、長期間のシーケンス処理を可能にすること。

実験結果

リサーチクエスチョン

RQ1U-Netベースのモデルは、従来のスライディングウィンドウ手法と比較して、人間の行動認識で優れた性能を達成できるか？
RQ2時系列データを画像形式にマッピングすることで、手動での特徴量抽出を伴わずに、より正確なピクセル単位の行動ラベル付けが可能になるか？
RQ3本手法は、多様なHARデータセットにおいて、精度とF1スコアの観点でどのように性能を発揮するか？
RQ4U-Netモデルは、リアルタイムアプリケーションにおいても高い頑健性と高速な推論速度を維持できるか？
RQ5SVM、kNN、DT、QDA、CNN、FCNと比較して、U-NetはHARタスクにおいてどのような相対的優位性を有するか？

主な発見

提案手法のU-NetベースHARは、全4つのテストデータセットで最高の精度とF1スコアを達成し、SVM、kNN、DT、QDA、CNN、FCNを上回った。
短時間の行動を含む多様な行動シーケンスにおいても、安定した性能と高い頑健性を示した。
各サンプリングポイントを個別にラベル付けすることで、混合クラスウィンドウ内での誤分類を回避し、マルチクラスウィンドウ問題を解消した。
トレーニング後、リアルタイム人間の行動認識アプリケーションに適した高速な推論速度を達成した。
手動での特徴量抽出を一切不要とし、生の加速度計データからのエンドツーエンド学習に依存した。
1列多チャンネルの画像表現は、正確なシーケンスモデリングに向けた時間的依存性を効果的に保持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。