QUICK REVIEW

[论文解读] Human Activity Detection from RGBD Images

Jaeyong Sung, Colin Ponce|arXiv (Cornell University)|Jan 1, 2011

Human Pose and Action Recognition参考文献 35被引用 271

一句话总结

本文提出一种基于微软Kinect的RGBD数据的分层最大熵马尔可夫模型（MEMM），用于在非结构化家庭环境中检测人类活动。该系统通过动态规划推断出两层活动结构，实现在多种环境下的十二项活动中，对已见个体的识别准确率达84.3%，对未见个体的识别准确率达64.2%。

ABSTRACT

Being able to detect and recognize human activities is important for making personal assistant robots useful in performing assistive tasks. The challenge is to de-velop a system that is low-cost, reliable in unstructured home settings, and also straightforward to use. In this paper, we use a RGBD sensor (Microsoft Kinect) as the input sensor, and present learning algorithms to in-fer the activities. Our algorithm is based on a hierar-chical maximum entropy Markov model (MEMM). It considers a person’s activity as composed of a set of sub-activities, and infers the two-layered graph struc-ture using a dynamic programming approach. We test our algorithm on detecting and recognizing twelve dif-ferent activities performed by four people in different environments, such as a kitchen, a living room, an of-fice, etc., and achieve an average performance of 84.3% when the person was seen before in the training set (and 64.2 % when the person was not seen before).

研究动机与目标

开发一种低成本、可靠的系统，用于在非结构化家庭环境中检测人类活动。
使个人助理机器人能够通过识别人类活动来执行辅助任务。
创建一种使用简便且在厨房、客厅和办公室等多样化真实场景中均有效的检测方法。
解决在训练数据中未出现过的个体活动识别的挑战。

提出的方法

系统使用来自微软Kinect的RGBD传感器数据作为活动识别的输入。
采用分层最大熵马尔可夫模型（MEMM）将活动建模为子活动的组合。
通过动态规划推断活动与子活动的两层图结构。
模型学习子活动之间的时序依赖关系与状态转移，以提升识别准确率。
算法在四名个体于多个环境执行十二项不同活动的数据上进行训练。
通过MEMM框架计算最可能的子活动与活动序列完成推理。

实验结果

研究问题

RQ1分层MEMM模型能否有效识别非结构化家庭环境中来自RGBD数据的人类活动？
RQ2当系统识别训练数据中未出现过的个体的活动时，其性能如何？
RQ3将活动建模为子活动的分层组合在多大程度上提升了识别准确率？
RQ4该系统在厨房、客厅和办公室等多样化真实场景中的鲁棒性如何？

主要发现

在识别训练过程中见过的个体的活动时，系统平均准确率达到84.3%。
在识别训练数据中未见过的个体的活动时，系统准确率达到64.2%。
分层MEMM模型成功利用动态规划捕捉了人类活动的组合结构。
该方法在包括厨房、客厅和办公室在内的多样化环境中表现出良好的鲁棒性。
使用RGBD数据可实现有效识别，且无需专用硬件或复杂设置。
结果表明，将活动建模为子活动序列可提升真实场景中的识别性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。