Skip to main content
QUICK REVIEW

[논문 리뷰] ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic Data

Abassin Sourou Fangbemi, Yi Lu|arXiv (Cornell University)|2020. 01. 01.
Human Motion and Animation참고 문헌 5인용 수 5
한 줄 요약

이 논문은 MotionBuilder에서 키프레임 애니메이션을 사용하여 생성된 합성 데이터를 활용하여 고양이의 FBX 애니메이션을 여러 카메라 뷰로 렲영함으로써 2D 및 3D 자의 포즈 추정을 위한 엔드 투 엔드 파이프라인인 ZooBuilder를 제시한다. 이 방법은 대규모이고 현실적인 훈련 데이터셋을 생성하여, 도메인 스플릿 문제에도 불구하고 실제 야생 동물 영상에서 정확한 3D 모션 캡처를 추론할 수 있도록 양질의 딥 러닝 모델을 미세조정한다.

ABSTRACT

This work introduces a novel strategy for generating synthetic training data for 2D and 3D pose estimation of animals using keyframe animations. With the objective to automate the process of creating animations for wildlife, we train several 2D and 3D pose estimation models with synthetic data, and put in place an end-to-end pipeline called ZooBuilder. The pipeline takes as input a video of an animal in the wild, and generates the corresponding 2D and 3D coordinates for each joint of the animal's skeleton. With this approach, we produce motion capture data that can be used to create animations for wildlife.

연구 동기 및 목표

  • 야생의 4족 보행 동물, 특히 비인간 동물에 대한 2D 및 3D 포즈 추정 훈련 데이터의 부족 문제를 해결하기 위해.
  • 키프레임 애니메이션을 활용하여 가상의 모션 캡처 스튜디오를 시뮬레이션하는 확장 가능한 합성 데이터 생성 파이프라인을 개발하기 위해.
  • 합성 데이터와 전이 학습을 활용하여 인간 중심의 포즈 추정 모델을 4족 뼈대에 적응시키기 위해.
  • 실제 세계 영상 자료에서 3D 애니메이션을 생성할 수 있는 엔드 투 엔드 시스템을 구축하기 위해.
  • 실제로 제약이 없는 야생 동물 영상에서 테스트할 때 합성 데이터로 훈련된 포즈 모델의 일반화 성능을 향상시키기 위해.

제안 방법

  • 고양이의 FBX 키프레임 애니메이션을 Autodesk MotionBuilder에 임포트하여 12대의 캘리브레이션된 카메라를 갖춘 가상의 모션 캡처 스튜디오를 시뮬레이션한다.
  • 각 프레임과 카메라 뷰에 대해 37개 뼈대 관절의 3D 월드 좌표, 카메라 파라미터, 2D 이미지 투영을 렌더링한다.
  • 기하학적 다양성을 높이기 위해 기울임, 스케일링, 뒤집기, 가우시안 노이즈, 색상 왜곡, 밝기/대trast 조정 등의 데이터 증강 기법을 적용한다.
  • 렌더링된 이미지에 무작위 배경을 추가하여 현실감을 향상시키고 실제 테스트 데이터와의 도메인 스플릿을 줄인다.
  • 스타일 전이와 회색조 변환을 사용하여 데이터 분포를 표준화하고 도메인 간 일반화 성능을 향상시킨다.
  • 전이 학습과 계층별 학습률을 활용하여 합성 데이터셋으로 2D(OpenPose) 및 3D(Pose_3D) 포즈 추정 모델을 재학습한다.

실험 결과

연구 질문

  • RQ1고양이의 키프레임 애니메이션에서 생성된 합성 데이터가 2D 및 3D 포즈 추정 모델을 정확하게 훈련시키기 위해 충분한 현실성과 다양성을 확보할 수 있는가?
  • RQ2그레이스케일 변환과 스타일 전이와 같은 도메인 적응 기법이 합성 훈련 데이터와 실제 야생 영상 테스트 세트 간의 도메인 갭을 얼마나 효과적으로 줄이는가?
  • RQ3인간 중심의 포즈 추정 모델이 합성 데이터를 활용하여 얼마나 잘 4족 뼈대에 적응되고 미세조정될 수 있는가?
  • RQ4합성 훈련 데이터만을 사용하여 실시간 2D 영상에서 3D 애니메이션을 성공적으로 추론할 수 있는 엔드 투 엔드 파이프라인이 가능한가?
  • RQ5복잡한 실제 영상 조건, 예를 들어 가림, 저대비, 다수의 주체 등에 대해 파이프라인의 핵심 한계는 무엇인가?

주요 결과

  • 그레이스케일 이미지를 사용하여 2D 포즈 추정 모델을 훈련하고 테스트한 결과, 표준 색상 입력에 비해 예측 정확도가 크게 향상되었다.
  • 데이터 표준화를 위해 스타일 전이를 적용한 결과, 적용하지 않은 경우보다 성능이 열 劣하므로, 스타일 전이가 관건적인 키포인트 검출 기능을 왜곡할 수 있음을 시사한다.
  • 기하학적 및 광학적 변환을 적용한 약 17만 장의 합성 이미지 데이터셋은 2D 및 3D 포즈 모델의 효과적인 미세조정을 가능하게 하였다.
  • ZooBuilder 파이프라인이 실제 야생 영상에서 3D 애니메이션을 성공적으로 추론하여, 합성 데이터가 실제 세계의 4족 동물 포즈 추정에 활용 가능한 것으로 입증되었다.
  • 시스템은 다수의 동물, 심한 가림, 저대비 환경과 같은 복잡한 시나리오에서는 여전히 도전 과제를 안고 있어, 데이터 및 모델 설계 개선 여지가 있음을 시사한다.
  • 계층별 학습률과 SGD 옵timizer를 활용한 하이퍼파rameter 미세조정이 실제 테스트 데이터에서 모델의 일반화 성능을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.