Skip to main content
QUICK REVIEW

[논문 리뷰] Cross-view Action Modeling, Learning and Recognition

Jiang Wang, Xiaohan Nie|arXiv (Cornell University)|2014. 05. 12.
Human Pose and Action Recognition참고 문헌 23인용 수 56
한 줄 요약

이 논문은 2D 영상에서의 다중 시점 동작 인식을 위해 3D 인간 스켈레톤 데이터를 학습에 활용하고 추론 시 3D 입력이 필요하지 않은 다중 시점 시공간 AND-OR 그래프(MST-AOG) 모델을 제안한다. 모델은 시점 간 기하학적, 외관적, 운동적 특성을 계층적으로 모델링하여 상태 최고 수준의 정확도를 달성하며, 시점 간 인식에서 81.6%의 정확도를 기록하고 다양한 주체와 환경에서의 강인성을 확보한다.

ABSTRACT

Existing methods on video-based action recognition are generally view-dependent, i.e., performing recognition from the same views seen in the training data. We present a novel multiview spatio-temporal AND-OR graph (MST-AOG) representation for cross-view action recognition, i.e., the recognition is performed on the video from an unknown and unseen view. As a compositional model, MST-AOG compactly represents the hierarchical combinatorial structures of cross-view actions by explicitly modeling the geometry, appearance and motion variations. This paper proposes effective methods to learn the structure and parameters of MST-AOG. The inference based on MST-AOG enables action recognition from novel views. The training of MST-AOG takes advantage of the 3D human skeleton data obtained from Kinect cameras to avoid annotating enormous multi-view video frames, which is error-prone and time-consuming, but the recognition does not need 3D information and is based on 2D video input. A new Multiview Action3D dataset has been created and will be released. Extensive experiments have demonstrated that this new action representation significantly improves the accuracy and robustness for cross-view action recognition on 2D videos.

연구 동기 및 목표

  • 기존 방법이 시점에 의존적인 특징 학습으로 인해 새로운, 본 적 없는 시점에서 2D 영상으로부터 동작을 인식하는 데 실패하는 문제를 해결하기 위해.
  • 다양한 시점 간 기하학적, 외관적, 운동적 변형을 계층적이고 구성적인 방식으로 모델링할 수 있는 모델을 개발하기 위해.
  • 다중 시점 영상 애너테이션의 높은 비용을 줄이기 위해 3D 스켈레톤 데이터를 학습의 대체 자료로 사용하기 위해.
  • 추론 시에 오직 2D 영상 입력만을 사용하여 다중 시점, 다중 주체, 다중 환경에서의 동작 인식을 강건하게 수행할 수 있도록 하기 위해.
  • 더 나은 일반화를 위해 데이터 기반 학습을 통해 분별력 있는 자세와 시점 불변 구조를 발견하기 위해.

제안 방법

  • MST-AOG 모델은 행동, 자세, 시점, 신체 부위, 특징 등을 노드로 하는 계층적 AND-OR 그래프 구조를 사용하여 시공간 패턴을 구성적으로 모델링한다.
  • 하위 레이어에서 저해상도 공간적 및 시간적 특징을 포착하기 위해 상위 레이어에서 기반을 설정함으로써 강인성 향상과 애너테이션 부담 감소를 달성한다.
  • 학습 시 Kinect 센서에서 확보한 3D 인간 스켈레톤 데이터를 사용하여 2D 시점 투영과 시점 간 기하학적 관계를 명시적으로 모델링한다.
  • 빈번하고 분별력 있는 자세를 자동으로 발견하기 위해 분류 기반 데이터 마이닝 방법을 제안하며, 이는 행동 노드 구조의 기초가 된다.
  • 다중 시점 영상과 3D 스켈레톤에서 외관 및 운동 특징을 학습하여, 추론 시 3D 입력 없이도 2D 영상에서 추론 가능하도록 한다.
  • 확률적 추론을 통해 계층적 구조를 탐색함으로써 다중 시점 자세 검출 및 행동 분류를 수행한다.

실험 결과

연구 질문

  • RQ13D 스켈레톤 데이터를 학습에 활용함으로써 2D 영상에서의 다중 시점 동작 변형을 구성적 생성 모델이 효과적으로 표현할 수 있는가?
  • RQ2기하학적, 외관적, 운동적 변형을 다중 시점에서 계층적 구조 안에서 동시에 모델링할 수 있는가?
  • RQ3학습 시 3D 입력 없이도 모델이 새로운 시점으로 일반화할 수 있는가?
  • RQ4저해상도 특징을 사용할 경우 다중 시점, 다중 주체, 다중 환경 설정에서 강인성이 얼마나 향상되는가?
  • RQ5제안된 데이터 기반 자세 발견 방법이 기준 방법 대비 인식 정확도 향상에 얼마나 효과적인가?

주요 결과

  • MST-AOG 모델은 다중 시점 행동3D 데이터셋에서 시점 간 테스트 시 81.6%의 인식 정확도를 기록하며 기존 방법을 크게 능가한다.
  • 주체 및 환경 간 강인성이 향상되어 환경 간 테스트에서 79.3%의 정확도를 달성하였으며, 최고의 기준 방법 대비 27.4%에 그친다.
  • 저해상도 특징을 사용할 경우 인식 정확도가 향상되어 시각적 변형을 다루는 데 모델의 효과성을 입증한다.
  • 혼동 행렬을 통해 '한손으로 들어 올리기'와 '두 손으로 들어 올리기' 동작이 유사한 운동과 외관으로 인해 가장 자주 혼동됨을 확인할 수 있다.
  • MSR-DailyActivity3D 데이터셋에서 MST-AOG는 오직 RGB 영상 입력만으로 73.1%의 정확도를 기록하며, Poselet(23.75%) 및 Action Bank(23%)와 같은 방법들을 능가한다.
  • 모델은 자세와 시점을 성공적으로 검출하였으며, 향후 작업으로는 인간-객체 상호작용 모델링을 통합하여 복잡한 동작의 인식을 향상시키는 데 초점을 맞출 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.