Skip to main content
QUICK REVIEW

[论文解读] Human Activity Detection from RGBD Images

Jaeyong Sung, Colin Ponce|arXiv (Cornell University)|Jan 1, 2011
Human Pose and Action Recognition参考文献 35被引用 271
一句话总结

本文提出一种基于微软Kinect的RGBD数据的分层最大熵马尔可夫模型(MEMM),用于在非结构化家庭环境中检测人类活动。该系统通过动态规划推断出两层活动结构,实现在多种环境下的十二项活动中,对已见个体的识别准确率达84.3%,对未见个体的识别准确率达64.2%。

ABSTRACT

Being able to detect and recognize human activities is important for making personal assistant robots useful in performing assistive tasks. The challenge is to de-velop a system that is low-cost, reliable in unstructured home settings, and also straightforward to use. In this paper, we use a RGBD sensor (Microsoft Kinect) as the input sensor, and present learning algorithms to in-fer the activities. Our algorithm is based on a hierar-chical maximum entropy Markov model (MEMM). It considers a person’s activity as composed of a set of sub-activities, and infers the two-layered graph struc-ture using a dynamic programming approach. We test our algorithm on detecting and recognizing twelve dif-ferent activities performed by four people in different environments, such as a kitchen, a living room, an of-fice, etc., and achieve an average performance of 84.3% when the person was seen before in the training set (and 64.2 % when the person was not seen before).

研究动机与目标

  • 开发一种低成本、可靠的系统,用于在非结构化家庭环境中检测人类活动。
  • 使个人助理机器人能够通过识别人类活动来执行辅助任务。
  • 创建一种使用简便且在厨房、客厅和办公室等多样化真实场景中均有效的检测方法。
  • 解决在训练数据中未出现过的个体活动识别的挑战。

提出的方法

  • 系统使用来自微软Kinect的RGBD传感器数据作为活动识别的输入。
  • 采用分层最大熵马尔可夫模型(MEMM)将活动建模为子活动的组合。
  • 通过动态规划推断活动与子活动的两层图结构。
  • 模型学习子活动之间的时序依赖关系与状态转移,以提升识别准确率。
  • 算法在四名个体于多个环境执行十二项不同活动的数据上进行训练。
  • 通过MEMM框架计算最可能的子活动与活动序列完成推理。

实验结果

研究问题

  • RQ1分层MEMM模型能否有效识别非结构化家庭环境中来自RGBD数据的人类活动?
  • RQ2当系统识别训练数据中未出现过的个体的活动时,其性能如何?
  • RQ3将活动建模为子活动的分层组合在多大程度上提升了识别准确率?
  • RQ4该系统在厨房、客厅和办公室等多样化真实场景中的鲁棒性如何?

主要发现

  • 在识别训练过程中见过的个体的活动时,系统平均准确率达到84.3%。
  • 在识别训练数据中未见过的个体的活动时,系统准确率达到64.2%。
  • 分层MEMM模型成功利用动态规划捕捉了人类活动的组合结构。
  • 该方法在包括厨房、客厅和办公室在内的多样化环境中表现出良好的鲁棒性。
  • 使用RGBD数据可实现有效识别,且无需专用硬件或复杂设置。
  • 结果表明,将活动建模为子活动序列可提升真实场景中的识别性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。