QUICK REVIEW

[論文レビュー] View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition

Pengfei Zhang, Cuiling Lan|arXiv (Cornell University)|Apr 20, 2018

Human Pose and Action Recognition参考文献 56被引用数 27

ひとこと要約

本稿では、骨格に基づく行動認識のための視点適応型ニューラルネットワーク（VA-RNN および VA-CNN）を提案する。これらのモデルは、トレーニング中に最適な仮想観測視点を自動で学習することで、視点変動の影響を低減する。エンド・ト・エンドでの視点不変特徴の学習により、5つのベンチマークで最先端の性能を達成しており、VA-fusionを用いることでデータ拡張およびランダム回転を組み合わせることで、精度を向上させつつも、ロバスト性を維持する。

ABSTRACT

Skeleton-based human action recognition has recently attracted increasing attention thanks to the accessibility and the popularity of 3D skeleton data. One of the key challenges in skeleton-based action recognition lies in the large view variations when capturing data. In order to alleviate the effects of view variations, this paper introduces a novel view adaptation scheme, which automatically determines the virtual observation viewpoints in a learning based data driven manner. We design two view adaptive neural networks, i.e., VA-RNN based on RNN, and VA-CNN based on CNN. For each network, a novel view adaptation module learns and determines the most suitable observation viewpoints, and transforms the skeletons to those viewpoints for the end-to-end recognition with a main classification network. Ablation studies find that the proposed view adaptive models are capable of transforming the skeletons of various viewpoints to much more consistent virtual viewpoints which largely eliminates the viewpoint influence. In addition, we design a two-stream scheme (referred to as VA-fusion) that fuses the scores of the two networks to provide the fused prediction. Extensive experimental evaluations on five challenging benchmarks demonstrate that the effectiveness of the proposed view-adaptive networks and superior performance over state-of-the-art approaches. The source code is available at https://github.com/microsoft/View-Adaptive-Neural-Networks-for-Skeleton-based-Human-Action-Recognition.

研究の動機と目的

骨格に基づく行動認識における大きな視点変動の課題に対処すること。これは、モデルの性能を低下させる要因である。
身体中心化や平面整列などの固定された人為的前処理に依存しない視点不変性の実現。
一貫した特徴学習が可能な最適な仮想観測視点を自動で決定できる、エンド・ト・エンドでトレーニング可能なニューラルネットワークの開発。
トレーニング中にランダム回転の拡張を組み込むことで、汎化性能とロバスト性を向上させること。
最小限のモデルサイズの増加で、複数のベンチマークデータセットで最先端の性能を達成すること。

提案手法

LSTM-RNNに基づくVA-RNNと3次元畳み込みネットワークに基づくVA-CNNの2つの視点適応型ニューラルネットワークを提案。時間的・空間的特徴の学習に用いる。
各骨格シーケンスに対してトレーニング中に最適な仮想視点を学習・適用する、新しい視点適応モジュールを導入。
視点適応モジュールは、入力の骨格を一貫した仮想視点に変換することで、視点間のばらつきを低減し、より良い行動固有の特徴学習を可能にする。
VA-RNNとVA-CNNの予測を統合する二重ストリーム融合戦略（VA-fusion）を採用し、精度を向上。
トレーニング中に骨格シーケンスに対してランダム回転の拡張を適用し、ロバスト性を向上させ、過学習を低減。
メイン分類ヘッドを用いたエンド・ト・エンドのトレーニングを実施。視点適応モジュールは、認識精度を最大化するように共同最適化される。

実験結果

リサーチクエスチョン

RQ1学習可能でデータ駆動型の視点適応アプローチは、固定された前処理手法に比べ、骨格に基づく行動認識で優れた性能を発揮できるか？
RQ2エンド・ト・エンドで学習された仮想視点は、視点変動が行動認識精度に与える悪影響をどの程度低減できるか？
RQ3提案された視点適応メカニズムは、視点分布が異なる多様なデータセットでどのように性能を発揮するか？
RQ4RNNおよびCNNアーキテクチャの両方と視点適応を統合することで、異なるモデル複雑度において一貫した性能向上が得られるか？
RQ5ランダム回転拡張を組み込むことで、モデルサイズの増加なしに、視点適応型モデルのロバスト性をさらに向上させられるか？

主な発見

VA-CNN(aug.)モデルはNTU-CVベンチマークで94.3%の精度を達成し、ベースラインのS-trans+CNN(aug.)より0.8%高い。
UWA3Dデータセットでは、VA-CNN(aug.)が79.3%の精度を達成し、同じバックボーンを用いたベースラインS-trans+CNN(aug.)より11.5%高い。
VA-RNN(aug.)モデルは、わずか0.47MパラメータでNTU-CVで88.7%の精度を達成し、小型モデルでも優れた性能を示した。
二重ストリームのVA-fusion(aug.)モデルはNTU-CVで95.7%の精度を達成し、最良の単一ストリームベースラインより2.7%高い。
視点適応モジュールは、大きなモデル（例：ResNet50）ではより顕著な性能向上をもたらし、スケーラビリティが確認された。
VA-RNN(aug.)モデルは1秒間に7.9シーケンスを処理し、VA-CNN(aug.)は1秒間に83.3シーケンスを処理する。精度と速度のトレードオフが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。