QUICK REVIEW

[論文レビュー] A Large-scale Varying-view RGB-D Action Dataset for Arbitrary-view Human Action Recognition

Yanli Ji, Feixiang Xu|arXiv (Cornell University)|Apr 24, 2019

Human Pose and Action Recognition参考文献 45被引用数 18

ひとこと要約

本稿では、118名の被験者が8つの固定視点および全周図の連続シーケンスで40のアクションを実行する、大規模で360°可変視点RGB-Dアクションデータセットを紹介する。このデータセットは、任意視点における人間のアクション認識を可能にする。また、視点を4つのセクタにグループ化し、視点別分類器を学習し、重み付き平均を用いて予測を統合する、ビュー誘導型スケルトンCNN（VS-CNN）を提案。この手法は、クロス・サブジェクト、クロス・ビュー、任意視点認識ベンチマークで最先端の性能を達成した。

ABSTRACT

Current researches of action recognition mainly focus on single-view and multi-view recognition, which can hardly satisfies the requirements of human-robot interaction (HRI) applications to recognize actions from arbitrary views. The lack of datasets also sets up barriers. To provide data for arbitrary-view action recognition, we newly collect a large-scale RGB-D action dataset for arbitrary-view action analysis, including RGB videos, depth and skeleton sequences. The dataset includes action samples captured in 8 fixed viewpoints and varying-view sequences which covers the entire 360 degree view angles. In total, 118 persons are invited to act 40 action categories, and 25,600 video samples are collected. Our dataset involves more participants, more viewpoints and a large number of samples. More importantly, it is the first dataset containing the entire 360 degree varying-view sequences. The dataset provides sufficient data for multi-view, cross-view and arbitrary-view action analysis. Besides, we propose a View-guided Skeleton CNN (VS-CNN) to tackle the problem of arbitrary-view action recognition. Experiment results show that the VS-CNN achieves superior performance.

研究の動機と目的

実世界のHRIアプリケーションにおいて、任意視点における人間のアクション認識を支援する大規模データセットの不足に対処すること。
8つの固定視点および連続する可変視点シーケンスを含む、全360°視点カバーを実現した包括的なRGB-Dデータセットを収集すること。
訓練時に未観測のテスト視点でも、大きな視点変化に耐えうるアクション認識が可能なディーブラーニングモデルを開発すること。
クロス・サブジェクト、クロス・ビュー、任意視点認識の設定において、実世界のロボットインタラクションシナリオを模擬した評価を実施すること。

提案手法

8台の同期されたRGB-Dカメラを円形に配置し、118名の被験者が40のフィットネス関連アクションを実行するデータを収集。
同期されたRGB動画、深度シーケンス、スケルトンシーケンスを含み、合計83時間の映像で25,600件の動画サンプルを構成。
提案されたVS-CNNモデルは、360°の視点空間を4つの重複する視点グループに分割し、大きな視点変化に対処。
視点グループ予測モジュールは、各アクションサンプルを4つの視点グループのいずれかに割り当て、4つの視点別分類器の学習を誘導。
4つの視点別分類器からの特徴を学習可能な重みで統合し、SoftMaxを用いて最終予測を生成。
複数のプロトコル（クロス・サブジェクト、クロス・ビュー、任意視点認識）に基づき、フレームワークを訓練および評価。視変動シーケンスのセグメンテーションを用いて、耐障害性を向上。

実験結果

リサーチクエスチョン

RQ1訓練時に観測されていないテスト視点において、限られた視点データでの学習のみを用いて、ディーブラーニングモデルが頑健なアクション認識を達成できるか？
RQ2データセットに全360°の視点カバーが存在する場合、限られた視点ベンチマークと比較して、任意視点アクション認識の性能がどの程度向上するか？
RQ3視点グループ化とビュー誘導型特徴学習は、大きな視点変化にわたる一般化をどの程度向上させるか？
RQ4クロス・サブジェクト、クロス・ビュー、任意視点認識プロトコルにおいて、提案されたVS-CNNの性能は、既存手法と比較してどの程度優れているか？

主な発見

提案されたVS-CNNは、ResNeXt や JOULE を含む8つのベースライン手法と比較して、任意視点アクション認識タスクで優れた認識精度を達成した。
任意視点認識IIでは、訓練およびテストデータの両方が全周図をカバーするため、認識精度曲線が平坦かつ一貫して高く、優れた一般化性能を示した。
可変視点シーケンスを10セクションにセグメンテーションすると、15セクションに比べて性能が向上した。これは、短いクリップが標準的なアクション持続時間と整合し、モデルの一般化性能を向上させるためである。
クロス・サブジェクト認識では最も高い精度を達成したが、クロス・ビューおよび任意視点認識ではやや低いが依然として高い性能を示し、視点間のドメインシフトの課題を示した。
固定視点での学習に比べ、全360°可変視点シーケンスを用いた学習は、モデルの耐障害性および性能を顕著に向上させた。
VS-CNNにおける重複する視点グループ設計により、視点遷移にわたる効果的な特徴学習が可能となり、視点変化への感受性が低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。