[논문 리뷰] Sim2real transfer learning for 3D human pose estimation: motion to the rescue
이 논문은 모션 큐(광학 흐름 및 2D 키포인트)를 모션 보강 포즈 추정기에 입력으로 사용하면 3D 인체 포즈 추정의 시뮬레이터-현실 간 전달이 크게 향상되며, 합성 데이터로만 학습했을 때도 최첨단에 준하는 성능을 달성한다.
Synthetic visual data can provide practically infinite diversity and rich labels, while avoiding ethical issues with privacy and bias. However, for many tasks, current models trained on synthetic data generalize poorly to real data. The task of 3D human pose estimation is a particularly interesting example of this sim2real problem, because learning-based approaches perform reasonably well given real training data, yet labeled 3D poses are extremely difficult to obtain in the wild, limiting scalability. In this paper, we show that standard neural-network approaches, which perform poorly when trained on synthetic RGB images, can perform well when the data is pre-processed to extract cues about the person's motion, notably as optical flow and the motion of 2D keypoints. Therefore, our results suggest that motion can be a simple way to bridge a sim2real gap when video is available. We evaluate on the 3D Poses in the Wild dataset, the most challenging modern benchmark for 3D pose estimation, where we show full 3D mesh recovery that is on par with state-of-the-art methods trained on real 3D sequences, despite training only on synthetic humans from the SURREAL dataset.
연구 동기 및 목표
- 합성 데이터를 사용하여 3D 인간 포즈 추정의 sim2real 간극을 동기화하고 해결한다.
- 도메인 간 격차를 줄이기 위한 모션 기반 전처리(광학 흐름과 2D 키포인트)를 제안한다.
- 모션 큐가 합성 학습을 사용하더라도 실제 데이터에서 경쟁력 있는 3D 포즈 성능을 달성할 수 있음을 입증한다.
- 포즈 추정기를 학습하기 위한 현실적인 모션과 가림/카메라 모션이 반영된 합성 비디오 파이프라인을 구성한다.
제안 방법
- 메모리 기능이 있는 LSTM 구성요소를 갖춘 비디오 처리를 다루도록 HMR(Human Mesh Recovery)을 확장한 Motion HMR을 제안한다.
- 입력을 광학 흐름(FlowNet)과 2D 키포인트 히트맵으로 전처리하고 이를 추가 입력 채널로 연결한다.
- 모션, 가림 및 카메라 모션이 반영된 현실적인 배경에 SURREAL 캐릭터를 합성적으로 배치하고 가림 생성 파이프라인(SLIC 초분할)을 포함하여 합성 학습 데이터를 만든다.
- Kinetics 유사 지상 truth에서의 단순화된 손실(프로크루스테스 정렬된 3D 키포인트 위치 오차 및 2D 재투영 오차)을 사용하여 엔드투엔드로 학습한다.
- RGB-전용, 흐름-전용, 키포인트-전용 및 조합을 비교하고 PA-MPJPE를 사용하여 3DPW에서 평가한다.
실험 결과
연구 질문
- RQ1합성 데이터를 사용한 3D 인간 포즈 추정의 sim2real 간극을 모션 기반 큐로 메울 수 있는가?
- RQ2광학 흐름과 2D 키포인트가 각각 또는 함께 실제 세계 데이터로의 전달 성능에 어떤 영향을 미치는가?
- RQ3모션 정보를 베이스라인 포즈 추정기에 추가하는 것이 DANN과 같은 도메인 적대적 접근법보다 sim2real 전달에서 더 뛰어난가?
- RQ4모션이 풍부한 배경, 가림 등 합성 데이터 구성의 세부 사항이 전달 성능에 어떤 영향을 주는가?
- RQ5이 설정에서 모션 컨텍스트의 길이가 포즈 추정 정확도에 어떤 영향을 미치는가?
주요 결과
- 모션 기반 입력은 RGB-전용 학습보다 시뮬레이트-현실 간 전달을大幅로 개선하며, Flow Only의 PA-MPJPE는 100.1, RGB+Keypoints의 PA-MPJPE는 82.4이다.
- Keypoints Only 및 Flow+Keypoints가 최상의 전달을 달성하여 각각 3DPW에서 77.6 및 74.7 PA-MPJPE를 기록한다.
- RGB+Flow 또는 RGB+Keypoints는 모션 큐만 사용하거나 키포인트와 함께 사용할 때보다 저조하며, RGB 텍스처가 합성 외관에 과적합으로 이어진다는 것을 시사한다.
- 모션 큐와 가림/배경의 현실감을 갖춘 합성 데이터로 학습하면 현실 데이터에서 학습된 최첨단 방법(HMR 변형 등)과 경쟁력 있는 성능을 얻을 수 있다.
- 이 설정에서 DANN은 모션 기반 큐에 비해 성능 향상이 미미하며, 이는 도메인 적대적 학습이 이 작업에 대해 모션 큐에 비해 덜 효과적임을 시사한다.
- ablations은 가림 및 움직이는 배경이 포함된 전체 모션 파이프라인이 정적 배경 기반에 비해 현저한 향상을 제공함을 보여준다。
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.