QUICK REVIEW

[논문 리뷰] Human Activity Detection from RGBD Images

Jaeyong Sung, Colin Ponce|arXiv (Cornell University)|2011. 01. 01.

Human Pose and Action Recognition참고 문헌 35인용 수 271

한 줄 요약

이 논문은 마이크로소프트 케니크의 RGBD 데이터를 사용하여 비정형 주거 환경에서 인간 활동을 탐지하기 위해 계층적 최대 엔트로피 마르코프 모델(MEMM)을 제안한다. 시스템은 동적 프로그래밍을 통해 이중층 활동 구조를 추론하며, 다양한 환경에서 12개의 활동에 대해 훈련 데이터에 등장한 개인에 대해 84.3%의 정확도를, 훈련 데이터에 등장하지 않은 개인에 대해 64.2%의 정확도를 달성한다.

ABSTRACT

Being able to detect and recognize human activities is important for making personal assistant robots useful in performing assistive tasks. The challenge is to de-velop a system that is low-cost, reliable in unstructured home settings, and also straightforward to use. In this paper, we use a RGBD sensor (Microsoft Kinect) as the input sensor, and present learning algorithms to in-fer the activities. Our algorithm is based on a hierar-chical maximum entropy Markov model (MEMM). It considers a person’s activity as composed of a set of sub-activities, and infers the two-layered graph struc-ture using a dynamic programming approach. We test our algorithm on detecting and recognizing twelve dif-ferent activities performed by four people in different environments, such as a kitchen, a living room, an of-fice, etc., and achieve an average performance of 84.3% when the person was seen before in the training set (and 64.2 % when the person was not seen before).

연구 동기 및 목표

비정형 주거 환경에서 인간 활동 탐지를 위한 저비용이고 신뢰할 수 있는 시스템을 개발하기 위해.
사람의 활동을 인식함으로써 개인 보조 로봇이 보조 작업을 수행할 수 있도록 하기 위해.
실제 다양한 환경(주방, 거실, 사무실 등)에서도 간편하게 사용 가능하고 효과적인 방법을 만들기 위해.
훈련 데이터에 미리 등장하지 않은 개인의 활동을 인식하는 데 도전하는 문제를 해결하기 위해.

제안 방법

시스템은 인간 활동 탐지에 사용하기 위해 마이크로소프트 케니크의 RGBD 센서 데이터를 입력으로 사용한다.
활동을 하위 활동의 조합으로 모델링하기 위해 계층적 최대 엔트로피 마르코프 모델(MEMM)을 적용한다.
활동과 하위 활동의 이중층 그래프 구조는 동적 프로그래밍을 통해 추론된다.
모델은 하위 활동 간의 시간적 종속성과 전이 관계를 학습하여 정확도를 향상시킨다.
알고리즘은 여러 환경에서 12개의 다른 활동을 수행하는 4명의 개인으로부터 수집된 데이터로 훈련된다.
MEMM 프레임워크를 사용하여 가장 가능성 높은 하위 활동 및 활동의 순서를 계산함으로써 추론이 수행된다.

실험 결과

연구 질문

RQ1계층적 MEMM 모델은 비정형 주거 환경에서 RGBD 데이터로부터 인간 활동을 효과적으로 인식할 수 있는가?
RQ2훈련 데이터에 포함되지 않은 개인의 활동을 인식할 때 시스템의 성능은 어떠한가?
RQ3활동을 하위 활동의 계층적 조합으로 모델링할 경우 정확도 향상에 어느 정도 기여하는가?
RQ4주방, 거실, 사무실과 같은 다양한 실생활 환경에서 시스템의 성능은 얼마나 견고한가?

주요 결과

훈련 과정에서 이미 등장한 개인의 활동을 인식할 때 평균 정확도가 84.3%에 도달한다.
훈련 데이터에 등장하지 않은 개인의 활동을 인식할 경우 정확도가 64.2%에 이른다.
계층적 MEMM 모델은 동적 프로그래밍을 활용하여 인간 활동의 조합적 구조를 성공적으로 포착한다.
주방, 거실, 사무실 등 다양한 환경에서 시스템의 성능이 뛰어나게 유지된다.
RGBD 데이터의 사용은 특수 하드웨어나 복잡한 설정 없이도 효과적인 인식을 가능하게 한다.
결과적으로 활동을 하위 활동의 순서로 모델링할 경우 실생활 환경에서의 인식 성능 향상에 기여하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.