[论文解读] Human Activity Detection from RGBD Images
本文提出一种基于微软Kinect的RGBD数据的分层最大熵马尔可夫模型(MEMM),用于在非结构化家庭环境中检测人类活动。该系统通过动态规划推断出两层活动结构,实现在多种环境下的十二项活动中,对已见个体的识别准确率达84.3%,对未见个体的识别准确率达64.2%。
Being able to detect and recognize human activities is important for making personal assistant robots useful in performing assistive tasks. The challenge is to de-velop a system that is low-cost, reliable in unstructured home settings, and also straightforward to use. In this paper, we use a RGBD sensor (Microsoft Kinect) as the input sensor, and present learning algorithms to in-fer the activities. Our algorithm is based on a hierar-chical maximum entropy Markov model (MEMM). It considers a person’s activity as composed of a set of sub-activities, and infers the two-layered graph struc-ture using a dynamic programming approach. We test our algorithm on detecting and recognizing twelve dif-ferent activities performed by four people in different environments, such as a kitchen, a living room, an of-fice, etc., and achieve an average performance of 84.3% when the person was seen before in the training set (and 64.2 % when the person was not seen before).
研究动机与目标
- 开发一种低成本、可靠的系统,用于在非结构化家庭环境中检测人类活动。
- 使个人助理机器人能够通过识别人类活动来执行辅助任务。
- 创建一种使用简便且在厨房、客厅和办公室等多样化真实场景中均有效的检测方法。
- 解决在训练数据中未出现过的个体活动识别的挑战。
提出的方法
- 系统使用来自微软Kinect的RGBD传感器数据作为活动识别的输入。
- 采用分层最大熵马尔可夫模型(MEMM)将活动建模为子活动的组合。
- 通过动态规划推断活动与子活动的两层图结构。
- 模型学习子活动之间的时序依赖关系与状态转移,以提升识别准确率。
- 算法在四名个体于多个环境执行十二项不同活动的数据上进行训练。
- 通过MEMM框架计算最可能的子活动与活动序列完成推理。
实验结果
研究问题
- RQ1分层MEMM模型能否有效识别非结构化家庭环境中来自RGBD数据的人类活动?
- RQ2当系统识别训练数据中未出现过的个体的活动时,其性能如何?
- RQ3将活动建模为子活动的分层组合在多大程度上提升了识别准确率?
- RQ4该系统在厨房、客厅和办公室等多样化真实场景中的鲁棒性如何?
主要发现
- 在识别训练过程中见过的个体的活动时,系统平均准确率达到84.3%。
- 在识别训练数据中未见过的个体的活动时,系统准确率达到64.2%。
- 分层MEMM模型成功利用动态规划捕捉了人类活动的组合结构。
- 该方法在包括厨房、客厅和办公室在内的多样化环境中表现出良好的鲁棒性。
- 使用RGBD数据可实现有效识别,且无需专用硬件或复杂设置。
- 结果表明,将活动建模为子活动序列可提升真实场景中的识别性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。