QUICK REVIEW

[論文レビュー] Memory Attention Networks for Skeleton-based Action Recognition

Chunyu Xie, Ce Li|arXiv (Cornell University)|Apr 23, 2018

Human Pose and Action Recognition参考文献 15被引用数 26

ひとこと要約

本論文は、時間的注意再キャリブレーションを実現する時間的注意再キャリブレーションモジュール（TARM）と、空間時間的特徴抽出を実現する空間時間的畳み込みモジュール（STCM）を組み合わせた、キーフレームベースの行動認識のためのエンド・ツー・エンドのディーブラーニングフレームワークであるメモリ注意ネットワーク（MANs）を提案する。MANsは、4つのベンチマークデータセットにおいて最先端の性能を達成し、NTU RGB+D（クロスビュー）で93.22%の正確性、UT-Kinectでは100%を達成しており、キーフレームデータにおける空間時間的変動に対して優れたロバスト性を示している。

ABSTRACT

Skeleton-based action recognition task is entangled with complex spatio-temporal variations of skeleton joints, and remains challenging for Recurrent Neural Networks (RNNs). In this work, we propose a temporal-then-spatial recalibration scheme to alleviate such complex variations, resulting in an end-to-end Memory Attention Networks (MANs) which consist of a Temporal Attention Recalibration Module (TARM) and a Spatio-Temporal Convolution Module (STCM). Specifically, the TARM is deployed in a residual learning module that employs a novel attention learning network to recalibrate the temporal attention of frames in a skeleton sequence. The STCM treats the attention calibrated skeleton joint sequences as images and leverages the Convolution Neural Networks (CNNs) to further model the spatial and temporal information of skeleton data. These two modules (TARM and STCM) seamlessly form a single network architecture that can be trained in an end-to-end fashion. MANs significantly boost the performance of skeleton-based action recognition and achieve the best results on four challenging benchmark datasets: NTU RGB+D, HDM05, SYSU-3D and UT-Kinect.

研究の動機と目的

行動速度、ジターリング、環境的干渉などの複雑な空間時間的変動に対処する。
キーフレームベースの行動認識における長距離依存関係のモデル化や、特徴的な関節の選択に限界を示すRNNの課題を克服する。
注意メカニズムとCNNを統合し、時間的・空間的構造を同時にモデル化することで、特徴表現を強化する。
勾配の流れを保ちながら特徴学習を促進するため、残差ブロック内にTARMを統合したエンド・ツー・エンドで学習可能なアーキテクチャを設計する。
多様なデータセットにわたる堅牢な行動認識を実現するため、時間的から空間的へと段階的に再キャリブレーションを行う戦略の有効性を検証する。

提案手法

時間的注意再キャリブレーションモジュール（TARM）を提案し、新しい注意学習ネットワークを用いて、キーフレーム列全体における注意重みの再キャリブレーションを残差学習で実現する。
空間時間的畳み込みモジュール（STCM）を導入し、注意重みでキャリブレーションされたキーフレーム列を2次元的な特徴マップとして扱い、CNNを用いて空間的・時間的依存関係をモデル化する。
TARMを残差ブロック内に統合した統一されたエンド・ツー・エンドアーキテクチャを設計し、勾配の流れを維持するとともに特徴学習を強化する。
TARM内でメモリ機構を活用し、フレーム間をまたいで文脈に適した情報を保存・更新することで、時間的モデリングを向上させる。
STCM内で複数のCNNアーキテクチャ（例：ResNet-18、DenseNet-161）を用いて、モデルの深さと性能のトレードオフを調査する。
標準的なバックプロパゲーションを用いて、注意重みと畳み込み特徴量を同時に最適化できるように、ネットワーク全体をエンド・ツー・エンドで学習する。

実験結果

リサーチクエスチョン

RQ1標準的なRNNと比較して、メモリ拡張型注意メカニズムは、キーフレームベースの行動認識における時間的モデリングを改善できるか？
RQ2まず時間的注意を精緻化し、その後にCNNを用いて空間時間的特徴を学習する二段階の再キャリブレーション戦略は、単一段階のモデルよりも優れた性能を示すか？
RQ3注意メカニズムとCNNの統合は、動きの速度やジターリングなどの空間時間的変動に対するロバスト性にどのように影響を与えるか？
RQ4提案されたMANsアーキテクチャは、複雑さやノイズのレベルが異なる多様なデータセットにどの程度一般化可能か？
RQ5認識精度を最大化しつつ過学習を防ぐために、STCMによるネットワークの深さとモデルの複雑さの最適なバランスは何か？

主な発見

MANs-9は、クロスサブジェクトプロトコル下でNTU RGB+Dで83.01%の正確性を達成し、先行するRNNベースの手法よりも3.44%の向上を示した。
MANs（DenseNet-161）は、クロスビュープロトコル下でNTU RGB+Dで93.22%の正確性を達成し、既存の手法よりも5.62%の向上を示した。
HDM05では、MANs（ResNet-18）が99.04%の正確性を達成し、マルチレイヤーRNNを上回り、優れた動きモデリング能力を示した。
SYSU-3Dでは、MANs-61が以前の最良手法（GCA-LSTM）を9.03%上回り、時間的から空間的へと再キャリブレーションを行う戦略の有効性を裏付けた。
UT-Kinectでは、MANs-9とMANs（ResNet-18）の両方が100%の正確性を達成し、以前の最先端手法GCA-LSTMを1.0%上回った。
パラメータ数が少ないMANs（例：MANs-9）が、Deep LSTMのようなより深いRNNを上回ったことから、高いパラメータ効率性と優れた特徴学習能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。