Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations

Yasunori Kudo, Keisuke Ogaki|arXiv (Cornell University)|2018. 03. 22.
Human Pose and Action Recognition참고 문헌 4인용 수 44
한 줄 요약

GAN 기반 방법으로, 단일 이미지 2D 관절 위치에서 3D 인간 포즈를 예측하되 3D 포즈 데이터 없이 수평 회전하에서도 3D 투영이 그럴듯하게 유지되도록 보장합니다.

ABSTRACT

The task of three-dimensional (3D) human pose estimation from a single image can be divided into two parts: (1) Two-dimensional (2D) human joint detection from the image and (2) estimating a 3D pose from the 2D joints. Herein, we focus on the second part, i.e., a 3D pose estimation from 2D joint locations. The problem with existing methods is that they require either (1) a 3D pose dataset or (2) 2D joint locations in consecutive frames taken from a video sequence. We aim to solve these problems. For the first time, we propose a method that learns a 3D human pose without any 3D datasets. Our method can predict a 3D pose from 2D joint locations in a single image. Our system is based on the generative adversarial networks, and the networks are trained in an unsupervised manner. Our primary idea is that, if the network can predict a 3D human pose correctly, the 3D pose that is projected onto a 2D plane should not collapse even if it is rotated perpendicularly. We evaluated the performance of our method using Human3.6M and the MPII dataset and showed that our network can predict a 3D pose well even if the 3D dataset is not available during training.

연구 동기 및 목표

  • 2D 관절에서 3D 포즈를 데이터세트나 연속 프레임에 의존하지 않고 추정한다는 동기를 부여한다.
  • 2D 관절에서 z좌표를 회귀하는 비지도적 적대 프레임워크를 제안한다.
  • 생성된 3D 포즈가 2D로 투영되고 회전되더라도 일관성을 유지하도록 한다.
  • 생성된 3D 포즈를 2D 주석만으로도 실제 자연 환경의 2D 데이터셋에 적용 가능성을 시연한다.

제안 방법

  • N×2 2D 관절 위치 p를 N z좌표(z1..zN)로 매핑하는 제너레이터 G를 사용한다.
  • 생성된 3D 포즈를 y축 주위로 임의의 각도 θ∈[-π,π]만큼 회전시킨 다음 직교 투영으로 2D로 투영하고 그 결과를 p̂로 표시한다.
  • 실제 2D 포즈 p와 투영된 3D 포즈 p̂를 구분하기 위해 판별기 D를 학습시키고 V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ)))]를 최적화한다.
  • 중심 관절을 사용한 2D 관절의 정규화를 추가하여 중심까지의 거리의 평균으로 좌표를 빼고 스케일링한다.
  • 궤도 제약 L_angle을 도입하여 inverted 3D 포즈를 방지하고 β가 얼굴과 어깨 방향 벡터 사이의 각도일 때 sinβ≥0를 강제한다.
  • 최종 목표에는 GAN 손실에 각도 제약을 포함하여 V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ))) + L_angle]가 된다.
  • 네트워크 설계는 G와 D 모두에 대해 leaky ReLU와 스킵 연결을 가진 4개의 선형 계층(1024 은닉 단위)을 사용한다.

실험 결과

연구 질문

  • RQ13D 포즈를 3D 데이터 없이도 단일 이미지의 2D 관절에서 학습할 수 있는가?
  • RQ2생성된 3D 포즈의 투영에서 회전 일관성을 강제하는 것이 2D 입력으로부터 그럴듯한 3D 재구성을 가능하게 하는가?
  • RQ3자연 환경에서 촬영된 2D 데이터셋(MPII 등) 또는 GT 2D 관절에 비지도 방식이 얼마나 잘 일반화되는가?
  • RQ4카메라 기하학 가정(正射, 수평 배치)이 재구성 정확도에 미치는 영향은 무엇인가?

주요 결과

  • 본 방법은 3D 데이터셋을 사용하지 않고도 단일 2D 관절 위치로부터 3D 포즈 예측을 달성한다.
  • Human3.6M에서 GT 2D 관절을 사용했을 때 평균 오차는 130.9 mm이다.
  • 2D 검출 관절(Stacked Hourglass)에서 3D 데이터를 사용하지 않는 경우 평균 오차는 173.2 mm이다.
  • 3D 감독이 있는 이전 방법들은 비지도 방식보다 더 낮은 오차를 달성한다(예: 감독 기반의 45.5–62.9 mm 범주를 인용).
  • 이 접근법은 2D 주석만으로 MPII(in-the-wild) 데이터셋에서 정성적 3D 포즈 예측을 시연한다.
  • GT 2D 관절을 활용한 MPI-INF-3DHP 평가에서 150 mm에서 89.3 PCK를 얻어 2D 포즈 품질이 3D 재구성에 큰 영향을 준다는 것을 시사한다.
  • 수직 축을 중심으로 한 시야 변화에 대해 2D 관절이 정확하게 주어지면 여전히 강건하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.