QUICK REVIEW

[论文解读] A Large-scale Varying-view RGB-D Action Dataset for Arbitrary-view Human Action Recognition

Yanli Ji, Feixiang Xu|arXiv (Cornell University)|Apr 24, 2019

Human Pose and Action Recognition参考文献 45被引用 18

一句话总结

本文提出一个大规模、360°视角可变的RGB-D动作数据集，包含118名受试者在8个固定视角和完整环形序列下执行40种动作，支持任意视角的人体动作识别。提出一种视图引导的骨骼卷积神经网络（VS-CNN），将视角划分为四个扇区，训练视角特定的分类器，并通过加权平均融合预测结果，在跨受试者、跨视角和任意视角识别基准上达到最先进性能。

ABSTRACT

Current researches of action recognition mainly focus on single-view and multi-view recognition, which can hardly satisfies the requirements of human-robot interaction (HRI) applications to recognize actions from arbitrary views. The lack of datasets also sets up barriers. To provide data for arbitrary-view action recognition, we newly collect a large-scale RGB-D action dataset for arbitrary-view action analysis, including RGB videos, depth and skeleton sequences. The dataset includes action samples captured in 8 fixed viewpoints and varying-view sequences which covers the entire 360 degree view angles. In total, 118 persons are invited to act 40 action categories, and 25,600 video samples are collected. Our dataset involves more participants, more viewpoints and a large number of samples. More importantly, it is the first dataset containing the entire 360 degree varying-view sequences. The dataset provides sufficient data for multi-view, cross-view and arbitrary-view action analysis. Besides, we propose a View-guided Skeleton CNN (VS-CNN) to tackle the problem of arbitrary-view action recognition. Experiment results show that the VS-CNN achieves superior performance.

研究动机与目标

为解决真实人机交互（HRI）应用中缺乏支持任意视角人体动作识别的大规模数据集的问题。
收集一个覆盖完整360°视角的综合性RGB-D数据集，包含8个固定视角和连续可变视角序列。
开发一种深度学习模型，能够在大视角变化下识别动作，尤其在测试视角未在训练中出现时仍具鲁棒性。
在跨受试者、跨视角和任意视角识别设置下评估所提方法，模拟真实机器人交互场景。

提出的方法

使用8台同步的RGB-D摄像机环绕排列，捕捉118名受试者执行40种与健身相关的动作。
数据集包含同步的RGB视频、深度序列和骨骼序列，总计25,600个视频样本，总时长达83小时。
所提出的VS-CNN模型将360°视角空间划分为四个重叠的视角组，以应对大视角变化。
视角组预测模块将每个动作样本分配至四个视角组之一，指导四个视角特定分类器的训练。
模型通过学习到的权重，融合来自四个视角特定分类器的特征，最终通过SoftMax生成预测结果。
该框架在多种协议下进行训练与评估：跨受试者、跨视角和任意视角识别，并采用可变序列分割以提升鲁棒性。

实验结果

研究问题

RQ1当测试视角在训练阶段未出现时，仅使用有限视角的训练数据，深度学习模型是否仍能实现鲁棒的动作识别？
RQ2与有限视角基准相比，数据集中完整的360°视角覆盖在任意视角动作识别性能上带来了多大提升？
RQ3视角分组与视角引导的特征学习在大视角变化下的泛化能力提升方面起到了多大作用？
RQ4在跨受试者、跨视角和任意视角识别协议下，所提VS-CNN的性能与现有方法相比如何？

主要发现

所提出的VS-CNN在任意视角动作识别任务上，相比八种基线方法（包括ResNeXt和JOULE），实现了更优的识别准确率。
在任意视角识别II设置中，训练与测试数据均覆盖完整环形视角，识别准确率曲线平坦且持续保持高位，表明模型具有强大的泛化能力。
将可变视角序列划分为10个片段的性能优于15个片段，因为较短的片段更符合标准动作持续时间，有助于提升模型泛化能力。
跨受试者识别达到最高准确率，而跨视角与任意视角识别表现较低但依然强劲，表明视角间域偏移带来的挑战。
使用完整的360°可变视角序列进行训练，显著提升了模型的鲁棒性与性能，相较于仅在固定视角上训练效果更优。
VS-CNN中采用的重叠视角组设计，有效支持了视角转换过程中的特征学习，降低了对视角变化的敏感性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。