QUICK REVIEW

[论文解读] Advances in Human Action Recognition: A Survey

Guangchun Cheng, Yiwen Wan|arXiv (Cornell University)|Jan 23, 2015

Human Pose and Action Recognition参考文献 89被引用 124

一句话总结

本综述回顾了2009年至2013年期间人类动作识别的最先进进展，采用与Aggarwal和Ryoo（2011）一致的分类法，将方法组织为单层和分层方法。它强调了在特征表示、学习和识别方面的进展，特别是在统计、句法和基于描述的框架中，并指出向复杂场景中使用概率和逻辑推理进行高层活动识别的日益明显趋势。

ABSTRACT

Human action recognition has been an important topic in computer vision due to its many applications such as video surveillance, human machine interaction and video retrieval. One core problem behind these applications is automatically recognizing low-level actions and high-level activities of interest. The former is usually the basis for the latter. This survey gives an overview of the most recent advances in human action recognition during the past several years, following a well-formed taxonomy proposed by a previous survey. From this state-of-the-art survey, researchers can view a panorama of progress in this area for future research.

研究动机与目标

提供2009年至2013年期间人类动作识别研究的全面、最新综述，重点关注先前综述未涵盖的方法。
基于Aggarwal和Ryoo的框架建立一致的分类法，区分单层和分层方法。
在关键数据集上评估和比较近期的识别方法论，强调在特征表示、学习和分类方面的进展。
突出展示使用概率和逻辑推理向高层活动识别转变的趋势，特别是在复杂的真实场景中。
识别当前研究中的空白，例如基于描述的方法缺乏标准化数据集，并倡导跨领域框架。

提出的方法

将人类动作识别方法分类为单层方法（直接从图像/视频中识别）和分层方法（从低级动作到高级活动的多阶段识别）。
回顾特征提取技术，包括时空兴趣点、局部时空特征以及3D体素表示，尤其针对视频输入。
分析学习和分类方法，包括统计模型（如SVM、HMM）、句法模型（如形式语法、PNF网络）以及使用时序逻辑和马尔可夫逻辑网络（MLN）的基于描述的框架。
使用公开可用的数据集（如KTH、Weizmann、IXMAS、CMU MoBo和UCF）评估识别系统，比较不同方法类别在性能上的差异。
整合概率推理（如贝叶斯网络、MLN）以处理低级观测中的不确定性，并提升高层活动推理能力。
提出一种结合轨迹跟踪、时空逻辑和概率推理的框架，用于在复杂场景（如篮球比赛）中进行事件标注。

实验结果

研究问题

RQ1近期在特征表示和学习方面的进展，如何提升了在受控环境与真实世界环境中人类动作识别的准确性？
RQ2在识别低级动作和高级活动时，单层方法与分层方法之间的关键差异和权衡是什么？
RQ3句法和基于描述的方法（尤其是使用形式逻辑和概率模型的方法）在多大程度上增强了动作识别的可解释性和鲁棒性？
RQ4为何当前在KTH和Weizmann等标准数据集上表现优异的方法，在Hollywood或YouTube视频等真实数据集上准确率显著下降？
RQ5现有基于描述的方法存在哪些局限性？标准化数据集和评估协议如何能提升高层活动识别的可比性和进展？

主要发现

单层方法，特别是使用时空兴趣点和3D视频特征的方法，在受控数据集（如KTH，例如Zeng’10中达到92.1%）和CMU MoBo（Han’10中达到98.27%）上取得了高准确率。
基于统计模型（如HMM、SVM）的分层方法在复杂动作上优于简单方法，Zeng’10在Weizmann上达到100%，在KTH上达到92.1%。
使用时序逻辑和马尔可夫逻辑网络（MLN）的基于描述的框架能够在复杂场景（如篮球比赛）中实现高层活动推理，Morariu’09中达到72%的准确率。
尽管取得了进展，但在Hollywood和YouTube等真实数据集上，识别准确率显著下降，表明实验室环境与真实世界性能之间存在差距。
基于描述的方法缺乏标准化数据集，限制了公平比较，并阻碍了高层活动识别的方法论进步。
目前正出现一种趋势，即将形式逻辑与概率推理（如MLN）结合，以在复杂、动态环境中建模不确定性并提升可解释性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。