QUICK REVIEW

[論文レビュー] Hierarchical Self Attention Based Autoencoder for Open-Set Human Activity Recognition

M Tanjid Hasan Tonmoy, Saif Mahmud|arXiv (Cornell University)|Mar 7, 2021

Context-Aware Activity Recognition Systems参考文献 31被引用数 15

ひとこと要約

本稿では、ウェアラブルセンサデータを用いたオープンセット人体活動認識のための階層的自己注意自己符号化器を提案する。時間的・空間的依存関係は、マルチレベルの注意メカニズムによってモデル化される。本手法は5つのベンチマークデータセットで最先端の性能を達成し、再構成誤差を用いて未学習の活動を強力に検出可能である。また、注意マップにより活動分類のための解釈可能な特徴選択が可能である。

ABSTRACT

Wearable sensor based human activity recognition is a challenging problem due to difficulty in modeling spatial and temporal dependencies of sensor signals. Recognition models in closed-set assumption are forced to yield members of known activity classes as prediction. However, activity recognition models can encounter an unseen activity due to body-worn sensor malfunction or disability of the subject performing the activities. This problem can be addressed through modeling solution according to the assumption of open-set recognition. Hence, the proposed self attention based approach combines data hierarchically from different sensor placements across time to classify closed-set activities and it obtains notable performance improvement over state-of-the-art models on five publicly available datasets. The decoder in this autoencoder architecture incorporates self-attention based feature representations from encoder to detect unseen activity classes in open-set recognition setting. Furthermore, attention maps generated by the hierarchical model demonstrate explainable selection of features in activity recognition. We conduct extensive leave one subject out validation experiments that indicate significantly improved robustness to noise and subject specific variability in body-worn sensor signals. The source code is available at: github.com/saif-mahmud/hierarchical-attention-HAR

研究の動機と目的

センサの故障や被験者間のばらつきによって未学習の活動が誤分類される閉じたセットHARモデルの限界を解消すること。
ウェアラブルセンサデータ内の階層的時間的・空間的依存関係をモデル化し、活動表現を向上させること。
自己符号化器フレームワークにおける再構成誤差を用いて、未知の活動クラスを検出することで、オープンセット認識を可能にすること。
活動分類のための重要なセンサ配置や時間窓を強調する解釈可能な注意マップを提供すること。

提案手法

2段階のエンコーダー構造を用いる：センサレベルの自己注意（SE）により、異なる身体部位からの信号を集約し、ウィンドウレベルの自己注意（HWE）により、セッション内での時間窓を統合する。
対称的な自己符号化器アーキテクチャを採用し、エンコーダーからの注意誘導コンテキストを用いてデコーダーが入力信号を再構成する。
自己注意メカニズムを適用し、関連するセンサや時間フレームを強調する動的で文脈依存の特徴表現を学習する。
再構成誤差を異常スコアとして用い、オープンセット認識における未学習の活動クラスを検出する。既知のクラスと未知のクラスを区別可能である。
SEおよびHWE層からの注意マップを生成し、予測に最も寄与するセンサや時間窓を可視化する。
分類用にクロスエントロピー損失、再構成用に平均二乗誤差を用い、エンコーダーとデコーダー間でパラメータを共有しながら、エンドツーエンドで学習する。

実験結果

リサーチクエスチョン

RQ1センサ信号の階層的自己注意モデリングは、非階層的または逐次的モデルと比較して、人体活動認識における分類精度を向上させることができるか？
RQ2提案された自己符号化器アーキテクチャは、再構成誤差を用いて、オープンセット認識設定下で未学習の活動クラスを効果的に検出できるか？
RQ3階層的モデルからの注意マップは、複雑な活動におけるセンサおよび時間的重要性の直感的で解釈可能なパターンをどのように反映しているか？
RQ4被験者間で一般化し、被験者固有のセンサばらつきに対してどれほど耐性を示すか？
RQ5従来のモデルが苦労する短時間、複雑、または低持続時間の活動において、本モデルは高い性能を維持できるか？

主な発見

提案モデルは、PAMAP2データセットにおけるウィンドウベース分類で、トランスフォーマーやハイブリッドネットワークを含むすべてのベースラインを上回るマクロ-F1スコア0.94を達成した。
Opportunityデータセットでは、高レベルの複雑な活動に対してマクロ-F1が0.91を達成し、CNN（0.71）、LSTM（0.73）、DeepConvLSTM（0.791）、AROMA（0.838）を顕著に上回った。
1人を除いて全被験者を学習に使用する（LOSO）検証において、4つのデータセットで一貫してベースラインを上回り、被験者固有のセンサばらつきに対して高い耐性を示した。
PAMAP2におけるオープンセット検出では、精度0.85、マクロ-F1 0.69を達成し、4つの新規クラスを含む、未学習の活動を識別する強力な能力を示した。
注意マップは、既知の中レベルの動作や歩行シーケンスと一致しており、モデルが活動認識に因果的に関連する解釈可能な特徴を学習していることを確認した。
Daphnetデータセットでは、オープンセット検出で精度0.42、マクロ-F1 0.39を達成したが、遷移行動がクラス境界をぼやけさせたことが低い性能の要因とされた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。