QUICK REVIEW

[논문 리뷰] A Neural Network Approach to Missing Marker Reconstruction in Human Motion Capture

Taras Kucherenko, Jonas Beskow|arXiv (Cornell University)|2018. 03. 07.

Human Pose and Action Recognition참고 문헌 23인용 수 28

한 줄 요약

이 논문은 인간 운동에서의 공간적 및 시간적 상관관계를 활용하여, LSTM과 시간 윈도우 기반 신경망을 사용한 딥러닝 기반 접근법을 제안한다. 이는 부재한 마커를 복원하기 위한 것으로, 복잡한 운동에서도 장기간의 마커 부재 간격을 복원하는 데 있어 최신 기술 수준의 성능을 달성하며, 미래 데이터에 의존하지 않고 온라인으로 작동하여 기존 선형 방법과 이전의 신경망 접근법을 능가한다.

ABSTRACT

Optical motion capture systems have become a widely used technology in various fields, such as augmented reality, robotics, movie production, etc. Such systems use a large number of cameras to triangulate the position of optical markers.The marker positions are estimated with high accuracy. However, especially when tracking articulated bodies, a fraction of the markers in each timestep is missing from the reconstruction. In this paper, we propose to use a neural network approach to learn how human motion is temporally and spatially correlated, and reconstruct missing markers positions through this model. We experiment with two different models, one LSTM-based and one time-window-based. Both methods produce state-of-the-art results, while working online, as opposed to most of the alternative methods, which require the complete sequence to be known. The implementation is publicly available at https://github.com/Svito-zar/NN-for-Missing-Marker-Reconstruction .

연구 동기 및 목표

오염 또는 센서 고장으로 인한 옵티컬 운동 캡처 시스템에서의 지속적인 마커 부재 탐지 문제를 해결하기 위해.
복잡한 공간적 및 시간적 상관관계를 학습하여 마커 복원 정확도를 향상시키는 데이터 기반 방법을 개발하기 위해.
다음 프레임에 의존하지 않고 실시간으로 데이터를 처리하는 온라인 복원을 가능하게 하기 위해, 대부분의 기존 방법과는 달리.
다양한 실제 시나리오에서의 강건성을 확보하기 위해, 예측 불가능한 주체와 운동 유형으로의 일반화를 보장하기 위해.
특히 장기간의 마커 부재 시퀀스를 복원하는 데 있어 최신 기술 수준의 선형 및 신경망 기반 방법을 능가하기 위해.

제안 방법

이 방법은 순차적 운동 데이터를 모델링하기 위해 두 가지 별도의 신경망 아키텍처를 사용한다: LSTM 기반 모델과 시간 윈도우 기반 피드포워드 네트워크.
두 모델은 마커 간의 잠재적인 공간적 및 시간적 의존성을 학습하기 위해 운동 캡처 시퀀스를 엔드 투 엔드로 훈련한다.
입력은 시간 슬라이딩 윈도우 내의 3D 마커 위치로 구성되며, 훈련 및 추론 중에 부재한 마커는 마스킹된다.
네트워크는 이웃 마커와 시간적 맥락 정보를 활용하여 부재한 마커의 재구성된 3D 위치를 출력한다.
예측된 위치와 진짜 위치 사이의 평균 제곱오차 손실을 사용하여 모델을 훈련한다.
이 방법은 온라인 추론을 위해 설계되어, 프레임이 도착하는 즉시 처리되며 실시간 응용에 적합하다.

실험 결과

연구 질문

RQ1신경망은 인간 운동의 복잡한 공간적 및 시간적 상관관계를 효과적으로 학습하고 활용하여 부재한 마커를 복원할 수 있는가?
RQ2LSTM 기반 모델과 시간 윈도우 기반 피드포워드 네트워크 간의 마커 부재 복원 성능는 어떻게 비교되는가?
RQ3제안된 방법은 새로운 주체와 운동 유형으로 일반화되어도 안정적인 성능 유지를 할 수 있는가?
RQ4특히 장기간의 데이터 부재 상황에서 최신 기술 수준의 선형 및 딥러닝 기반 접근법을 능가하는가?
RQ5미래의 프레임 정보 없이 실시간으로 마커를 복원할 수 있는가?

주요 결과

LSTM 기반 모델은 특히 복잡한 운동에서 장기간의 마커 부재 간격을 복원하는 데 시간 윈도우 기반 모델보다 뛰어난 성능을 보였다.
20퍼센트의 마커가 100 프레임 동안 부재할 경우(약 1초), 제안된 방법은 최신 기술 수준의 방법보다 낮은 복원 오차를 기록했다.
일반화 테스트에서 LSTM 모델은 새로운 주체나 운동 유형에 대해 테스트해도 합리적인 성능(오차 증가 <25%)을 유지했지만, 분산은 증가했다.
15개의 마커가 41개 중에서 5초 간격 동안 부재할 경우에도, 기준선 방법인 보간법과 Burke 등(2020)의 방법은 빠르게 발산하는 반면, 제안된 방법은 안정적이고 정확하게 유지되었다.
윈도우 기반 모델은 성능 저하가 최소한이었고, 다양한 운동 유형과 주체에서 강건성을 보였다.
시각적 결과는 LSTM 기반 복원이 진짜 값에 매우 가까운 것으로 확인되었으며, 자세 추정에 있어 최소한의 왜곡이 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.