QUICK REVIEW

[논문 리뷰] Cross-view Action Modeling, Learning and Recognition

Jiang Wang, Xiaohan Nie|arXiv (Cornell University)|2014. 05. 12.

Human Pose and Action Recognition참고 문헌 23인용 수 56

한 줄 요약

이 논문은 2D 영상에서의 다중 시점 동작 인식을 위해 3D 인간 스켈레톤 데이터를 학습에 활용하고 추론 시 3D 입력이 필요하지 않은 다중 시점 시공간 AND-OR 그래프(MST-AOG) 모델을 제안한다. 모델은 시점 간 기하학적, 외관적, 운동적 특성을 계층적으로 모델링하여 상태 최고 수준의 정확도를 달성하며, 시점 간 인식에서 81.6%의 정확도를 기록하고 다양한 주체와 환경에서의 강인성을 확보한다.

ABSTRACT

Existing methods on video-based action recognition are generally view-dependent, i.e., performing recognition from the same views seen in the training data. We present a novel multiview spatio-temporal AND-OR graph (MST-AOG) representation for cross-view action recognition, i.e., the recognition is performed on the video from an unknown and unseen view. As a compositional model, MST-AOG compactly represents the hierarchical combinatorial structures of cross-view actions by explicitly modeling the geometry, appearance and motion variations. This paper proposes effective methods to learn the structure and parameters of MST-AOG. The inference based on MST-AOG enables action recognition from novel views. The training of MST-AOG takes advantage of the 3D human skeleton data obtained from Kinect cameras to avoid annotating enormous multi-view video frames, which is error-prone and time-consuming, but the recognition does not need 3D information and is based on 2D video input. A new Multiview Action3D dataset has been created and will be released. Extensive experiments have demonstrated that this new action representation significantly improves the accuracy and robustness for cross-view action recognition on 2D videos.

연구 동기 및 목표

기존 방법이 시점에 의존적인 특징 학습으로 인해 새로운, 본 적 없는 시점에서 2D 영상으로부터 동작을 인식하는 데 실패하는 문제를 해결하기 위해.
다양한 시점 간 기하학적, 외관적, 운동적 변형을 계층적이고 구성적인 방식으로 모델링할 수 있는 모델을 개발하기 위해.
다중 시점 영상 애너테이션의 높은 비용을 줄이기 위해 3D 스켈레톤 데이터를 학습의 대체 자료로 사용하기 위해.
추론 시에 오직 2D 영상 입력만을 사용하여 다중 시점, 다중 주체, 다중 환경에서의 동작 인식을 강건하게 수행할 수 있도록 하기 위해.
더 나은 일반화를 위해 데이터 기반 학습을 통해 분별력 있는 자세와 시점 불변 구조를 발견하기 위해.

제안 방법

MST-AOG 모델은 행동, 자세, 시점, 신체 부위, 특징 등을 노드로 하는 계층적 AND-OR 그래프 구조를 사용하여 시공간 패턴을 구성적으로 모델링한다.
하위 레이어에서 저해상도 공간적 및 시간적 특징을 포착하기 위해 상위 레이어에서 기반을 설정함으로써 강인성 향상과 애너테이션 부담 감소를 달성한다.
학습 시 Kinect 센서에서 확보한 3D 인간 스켈레톤 데이터를 사용하여 2D 시점 투영과 시점 간 기하학적 관계를 명시적으로 모델링한다.
빈번하고 분별력 있는 자세를 자동으로 발견하기 위해 분류 기반 데이터 마이닝 방법을 제안하며, 이는 행동 노드 구조의 기초가 된다.
다중 시점 영상과 3D 스켈레톤에서 외관 및 운동 특징을 학습하여, 추론 시 3D 입력 없이도 2D 영상에서 추론 가능하도록 한다.
확률적 추론을 통해 계층적 구조를 탐색함으로써 다중 시점 자세 검출 및 행동 분류를 수행한다.

실험 결과

연구 질문

RQ13D 스켈레톤 데이터를 학습에 활용함으로써 2D 영상에서의 다중 시점 동작 변형을 구성적 생성 모델이 효과적으로 표현할 수 있는가?
RQ2기하학적, 외관적, 운동적 변형을 다중 시점에서 계층적 구조 안에서 동시에 모델링할 수 있는가?
RQ3학습 시 3D 입력 없이도 모델이 새로운 시점으로 일반화할 수 있는가?
RQ4저해상도 특징을 사용할 경우 다중 시점, 다중 주체, 다중 환경 설정에서 강인성이 얼마나 향상되는가?
RQ5제안된 데이터 기반 자세 발견 방법이 기준 방법 대비 인식 정확도 향상에 얼마나 효과적인가?

주요 결과

MST-AOG 모델은 다중 시점 행동3D 데이터셋에서 시점 간 테스트 시 81.6%의 인식 정확도를 기록하며 기존 방법을 크게 능가한다.
주체 및 환경 간 강인성이 향상되어 환경 간 테스트에서 79.3%의 정확도를 달성하였으며, 최고의 기준 방법 대비 27.4%에 그친다.
저해상도 특징을 사용할 경우 인식 정확도가 향상되어 시각적 변형을 다루는 데 모델의 효과성을 입증한다.
혼동 행렬을 통해 '한손으로 들어 올리기'와 '두 손으로 들어 올리기' 동작이 유사한 운동과 외관으로 인해 가장 자주 혼동됨을 확인할 수 있다.
MSR-DailyActivity3D 데이터셋에서 MST-AOG는 오직 RGB 영상 입력만으로 73.1%의 정확도를 기록하며, Poselet(23.75%) 및 Action Bank(23%)와 같은 방법들을 능가한다.
모델은 자세와 시점을 성공적으로 검출하였으며, 향후 작업으로는 인간-객체 상호작용 모델링을 통합하여 복잡한 동작의 인식을 향상시키는 데 초점을 맞출 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.