Skip to main content
QUICK REVIEW

[논문 리뷰] Self-supervised Learning of Motion Capture

Hsiao-Yu Fish Tung, Hsiao-Wei Tung|arXiv (Cornell University)|2017. 12. 04.
Advanced Vision and Imaging참고 문헌 31인용 수 131
한 줄 요약

본 논문은 합성 데이터로 사전 학습하고 테스트 시 셀프-감독 가능한 미분 가능 렌더링 손실을 통해 키포인트, 세분화 및 조밀한 메쉬 모션에 대해 학습 기반 모션 캡처 모델을 제시하며, 전통적 최적화 및 비적응 기반 벤치마크를 능가한다.

ABSTRACT

Current state-of-the-art solutions for motion capture from a single camera are optimization driven: they optimize the parameters of a 3D human model so that its re-projection matches measurements in the video (e.g. person segmentation, optical flow, keypoint detections etc.). Optimization models are susceptible to local minima. This has been the bottleneck that forced using clean green-screen like backgrounds at capture time, manual initialization, or switching to multiple cameras as input resource. In this work, we propose a learning based motion capture model for single camera input. Instead of optimizing mesh and skeleton parameters directly, our model optimizes neural network weights that predict 3D shape and skeleton configurations given a monocular RGB video. Our model is trained using a combination of strong supervision from synthetic data, and self-supervision from differentiable rendering of (a) skeletal keypoints, (b) dense 3D mesh motion, and (c) human-background segmentation, in an end-to-end framework. Empirically we show our model combines the best of both worlds of supervised learning and test-time optimization: supervised learning initializes the model parameters in the right regime, ensuring good pose and surface initialization at test time, without manual effort. Self-supervision by back-propagating through differentiable rendering allows (unsupervised) adaptation of the model to the test data, and offers much tighter fit than a pretrained fixed model. We show that the proposed model improves with experience and converges to low-error solutions where previous optimization methods fail.

연구 동기 및 목표

  • 깨끗한 배경이나 다중 카메라 구성이 필요 없는 단안 3D 모션 캡처의 동기를 제시한다.
  • 단안 비디오에서 SMPL 3D 인간 메쉬 매개변수를 예측하는 신경 모델을 개발한다.
  • 합성 데이터를 감독 및 자기 감독으로 활용하고, 미분 가능 렌더링을 통해 테스트 시 적응한다.
  • 테스트 시 자기 감독이 순수 지도 학습이나 순수 최적화 기반 접근법보다 더 촘촘한 3D 재구성을 낳는다는 것을 입증한다.

제안 방법

  • SMPL을 포즈 theta와 형상 beta 매개변수를 갖는 밀집 3D 인간 메쉬 모델로 사용하는 것.
  • 합성 데이터(Surreal)에서 theta와 beta 회귀를 지도 학습으로 사전 학습한다.
  • 3D 키포인트, 밀집 메쉬 모션, 세분화를 미분 가능 렌더링으로 엔드-투-엔드 자기 감독 손실을 적용한 후, 이를 감지된 2D 대응물과 비교한다.
  • 자기 감독 손실에는 키포인트 재투영, 2D 옵티컬 플로우에 대한 모션 재투영, Chamfer 거리 기반 페널티를 통한 세분화 재투영이 포함된다.
  • 가시성은 광선 캐스팅으로 구현하여 가려진 정점의 모션 재투영을 마스킹하고 역전파로 학습한다.
  • Surreal 및 Human3.6M(H3.6M)에서 평가하고 최적화 기반 벤치마크 및 사전 학습만 모델과 비교한다.

실험 결과

연구 질문

  • RQ1합성 데이터로 학습하고 테스트 시 셀프-감독을 통해 적응하도록 학습된 신경망이 단안 비디오에서 SMPL 매개변수를 예측하는 방법을 학습할 수 있는가?
  • RQ2미분 가능 렌더링 기반 손실(키포인트, 모션, 세분화)이 합성에서 실제 데이터로의 정확한 3D 재구성과 도메인 전이를 가능하게 하는가?
  • RQ3단안 모션 캡처에서 순수하게 사전 학습되었거나 순수하게 최적화 기반 접근보다 테스트 시 적응이 필수적인가?
  • RQ4제안된 자기 감독 손실이 3D 메쉬 및 골격 정확도 향상에 서로 어떻게 보완적으로 기여하는가?

주요 결과

surface error (mm)per-joint error (mm)recon. error (mm)
Optimization346.5532.81320.1
Optimization + tildeR301.1222.0294.9
Optimization + tildeR + tildeT272.8206.6205.5
Pretrained119.4101.6351.3
Pretrained+Self-Sup74.564.4203.9
per-joint error (mm)recon. error (mm)
Optimization562.4883.1
Pretrained125.6303.5
Pretrained+Self-Sup98.4145.8
  • 자기 감독적이고 테스트 시 적응하는 방식이 사전 학습만 수행한 경우나 직접 최적화 기반 벤치마크보다 3D 재구성 정확도가 더 높다.
  • Surreal에서 사전 학습+자기 감독 모델은 표면 오차 74.5 mm, 관절당 오차 64.4 mm, 재구성 오차 203.9 mm로 벤치마크를 능가한다.
  • H3.6M에서 사전 학습+자기 감독 모델은 관절당 오차를 98.4 mm로, 재구성 오차를 145.8 mm로 낮추며 최적화 및 사전 학습 벤치마크 대비 우수하다.
  • 제거
  • Ablation은 세 가지 손실(키포인트, 세분화, 모션)이 상호 보완적이며 3D 키포인트 및 메쉬 정확도를 함께 개선한다.
  • 미분 가능 렌더링을 통한 자기 감독은 합성에서 실제 데이터로의 도메인 전이를 가능하게 하며 적합도를 개선한다.
  • 이 접근법은 감독 학습과 비감독적 적응을 결합하여 수동 초기화 없이도 더 촘촘한 메쉬 적합을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.