Skip to main content
QUICK REVIEW

[論文レビュー] Human Activity Detection from RGBD Images

Jaeyong Sung, Colin Ponce|arXiv (Cornell University)|Jan 1, 2011
Human Pose and Action Recognition参考文献 35被引用数 271
ひとこと要約

本稿では、マイクロソフトのキネクトから得られるRGBDデータを用いて、非構造的な家庭環境における人間の行動を検出する階層的最尤マルコフモデル(MEMM)を提案する。システムは動的計画法を用いて2段階の行動構造を推論し、多様な環境下で12の行動に対して、トレーニングデータに登録された人物では84.3%、登録されていない人物では64.2%の精度を達成した。

ABSTRACT

Being able to detect and recognize human activities is important for making personal assistant robots useful in performing assistive tasks. The challenge is to de-velop a system that is low-cost, reliable in unstructured home settings, and also straightforward to use. In this paper, we use a RGBD sensor (Microsoft Kinect) as the input sensor, and present learning algorithms to in-fer the activities. Our algorithm is based on a hierar-chical maximum entropy Markov model (MEMM). It considers a person’s activity as composed of a set of sub-activities, and infers the two-layered graph struc-ture using a dynamic programming approach. We test our algorithm on detecting and recognizing twelve dif-ferent activities performed by four people in different environments, such as a kitchen, a living room, an of-fice, etc., and achieve an average performance of 84.3% when the person was seen before in the training set (and 64.2 % when the person was not seen before).

研究の動機と目的

  • 非構造的な家庭環境における人間の行動検出のための低コストで信頼性の高いシステムの開発。
  • 人間の行動を認識することで、アシスタントロボットが支援作業を実行できるようにすること。
  • 多様な実世界の環境(台所、リビング、オフィスなど)にわたり、使いやすく効果的な手法の構築。
  • トレーニングデータに登録されていない人物の行動を認識する課題への対処。

提案手法

  • 行動認識の入力として、マイクロソフトのキネクトからのRGBDセンサデータを用いる。
  • 行動を部分行動の組み合わせとしてモデル化するため、階層的最尤マルコフモデル(MEMM)を採用する。
  • 2段階のグラフ構造(行動と部分行動)を動的計画法を用いて推論する。
  • 部分行動間の時間的依存関係と遷移を学習することで、認識精度を向上させる。
  • アルゴリズムは、複数の環境で12種類の行動を実行した4名の人物のデータを用いて学習する。
  • MEMMフレームワークを用いて、最も確率の高い部分行動および行動の系列を推論する。

実験結果

リサーチクエスチョン

  • RQ1階層的MEMMモデルは、非構造的な家庭環境におけるRGBDデータから人間の行動を効果的に認識できるか?
  • RQ2トレーニングデータに登録されていない人物の行動を認識する際、システムの性能はいかがなっているか?
  • RQ3行動を部分行動の階層的構成としてモデル化することで、認識精度はどの程度向上するか?
  • RQ4台所、リビング、オフィスなどの多様な実世界の環境において、システムの頑健性はどの程度か?

主な発見

  • トレーニング時に登録済みの人物の行動認識において、平均84.3%の精度を達成した。
  • トレーニングデータに登録されていない人物の行動認識では、64.2%の精度を達成した。
  • 階層的MEMMモデルは、動的計画法を用いて人間の行動の構成的構造を効果的に捉えた。
  • 台所、リビング、オフィスを含む多様な環境において、システムの頑健性が示された。
  • RGBDデータの使用により、特別なハードウェアや複雑な設定を必要とせずに効果的な認識が可能になった。
  • 実世界の環境において、行動を部分行動の系列としてモデル化することで認識性能が向上することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。