[논문 리뷰] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations
GAN 기반 방법으로, 단일 이미지 2D 관절 위치에서 3D 인간 포즈를 예측하되 3D 포즈 데이터 없이 수평 회전하에서도 3D 투영이 그럴듯하게 유지되도록 보장합니다.
The task of three-dimensional (3D) human pose estimation from a single image can be divided into two parts: (1) Two-dimensional (2D) human joint detection from the image and (2) estimating a 3D pose from the 2D joints. Herein, we focus on the second part, i.e., a 3D pose estimation from 2D joint locations. The problem with existing methods is that they require either (1) a 3D pose dataset or (2) 2D joint locations in consecutive frames taken from a video sequence. We aim to solve these problems. For the first time, we propose a method that learns a 3D human pose without any 3D datasets. Our method can predict a 3D pose from 2D joint locations in a single image. Our system is based on the generative adversarial networks, and the networks are trained in an unsupervised manner. Our primary idea is that, if the network can predict a 3D human pose correctly, the 3D pose that is projected onto a 2D plane should not collapse even if it is rotated perpendicularly. We evaluated the performance of our method using Human3.6M and the MPII dataset and showed that our network can predict a 3D pose well even if the 3D dataset is not available during training.
연구 동기 및 목표
- 2D 관절에서 3D 포즈를 데이터세트나 연속 프레임에 의존하지 않고 추정한다는 동기를 부여한다.
- 2D 관절에서 z좌표를 회귀하는 비지도적 적대 프레임워크를 제안한다.
- 생성된 3D 포즈가 2D로 투영되고 회전되더라도 일관성을 유지하도록 한다.
- 생성된 3D 포즈를 2D 주석만으로도 실제 자연 환경의 2D 데이터셋에 적용 가능성을 시연한다.
제안 방법
- N×2 2D 관절 위치 p를 N z좌표(z1..zN)로 매핑하는 제너레이터 G를 사용한다.
- 생성된 3D 포즈를 y축 주위로 임의의 각도 θ∈[-π,π]만큼 회전시킨 다음 직교 투영으로 2D로 투영하고 그 결과를 p̂로 표시한다.
- 실제 2D 포즈 p와 투영된 3D 포즈 p̂를 구분하기 위해 판별기 D를 학습시키고 V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ)))]를 최적화한다.
- 중심 관절을 사용한 2D 관절의 정규화를 추가하여 중심까지의 거리의 평균으로 좌표를 빼고 스케일링한다.
- 궤도 제약 L_angle을 도입하여 inverted 3D 포즈를 방지하고 β가 얼굴과 어깨 방향 벡터 사이의 각도일 때 sinβ≥0를 강제한다.
- 최종 목표에는 GAN 손실에 각도 제약을 포함하여 V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ))) + L_angle]가 된다.
- 네트워크 설계는 G와 D 모두에 대해 leaky ReLU와 스킵 연결을 가진 4개의 선형 계층(1024 은닉 단위)을 사용한다.
실험 결과
연구 질문
- RQ13D 포즈를 3D 데이터 없이도 단일 이미지의 2D 관절에서 학습할 수 있는가?
- RQ2생성된 3D 포즈의 투영에서 회전 일관성을 강제하는 것이 2D 입력으로부터 그럴듯한 3D 재구성을 가능하게 하는가?
- RQ3자연 환경에서 촬영된 2D 데이터셋(MPII 등) 또는 GT 2D 관절에 비지도 방식이 얼마나 잘 일반화되는가?
- RQ4카메라 기하학 가정(正射, 수평 배치)이 재구성 정확도에 미치는 영향은 무엇인가?
주요 결과
- 본 방법은 3D 데이터셋을 사용하지 않고도 단일 2D 관절 위치로부터 3D 포즈 예측을 달성한다.
- Human3.6M에서 GT 2D 관절을 사용했을 때 평균 오차는 130.9 mm이다.
- 2D 검출 관절(Stacked Hourglass)에서 3D 데이터를 사용하지 않는 경우 평균 오차는 173.2 mm이다.
- 3D 감독이 있는 이전 방법들은 비지도 방식보다 더 낮은 오차를 달성한다(예: 감독 기반의 45.5–62.9 mm 범주를 인용).
- 이 접근법은 2D 주석만으로 MPII(in-the-wild) 데이터셋에서 정성적 3D 포즈 예측을 시연한다.
- GT 2D 관절을 활용한 MPI-INF-3DHP 평가에서 150 mm에서 89.3 PCK를 얻어 2D 포즈 품질이 3D 재구성에 큰 영향을 준다는 것을 시사한다.
- 수직 축을 중심으로 한 시야 변화에 대해 2D 관절이 정확하게 주어지면 여전히 강건하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.