[논문 리뷰] End-to-End Human Pose and Mesh Reconstruction with Transformers
METRO는 변환기 기반 인코더와 Masked Vertex Modeling을 사용하여 단일 이미지에서 3D 신체 관절과 메쉬 정점을 공동으로 예측하고 매개변수 메쉬 모델에 의존하지 않으면서 3DPW, Human3.6M, FreiHAND에서 최첨단(SOTA) 성능을 달성한다.
We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https://github.com/microsoft/MeshTransformer.
연구 동기 및 목표
- 매개변수 모델(SMPL)과 같은 의존 없이 모노큘러 이미지에서 견고한 3D 인간 포즈 및 메쉬 재구성을 목표로 한다.
- 전역(비국소) 상호작용을 관절과 메쉬 정점 사이에서 모델링하여 큰 포즈 변화와 가려짐을 다룬다.
- End-to-end 프레임워크에서 3D 관절 좌표와 메쉬 정점을 동시에 예측한다.
- 고정된 메쉬 토폴로지에 의존하지 않도록 self-attention으로 연결을 학습한다.
- 인간 신체 외의 3D 손 및 기타 메쉬 재구성으로의 일반화 가능성을 보여준다.
제안 방법
- ImageNet에서 사전 훈련된 CNN으로 이미지 특징을 추출한다.
- 다층 Transformer 인코더를 도입하여 점진적으로 차원을 축소하고 관절과 정점의 3D 좌표를 출력한다.
- 템플릿 메쉬 좌표를 이미지 특징과 결합하여 관절 및 정점 질의를 형성하기 위해 위치 인코딩을 적용한다.
- Masked Vertex Modeling(MVM)을 적용하여 입력 질의를 임의로 마스킹하고 변환기가 남은 신호를 사용해 모든 관절/정점을 추론하도록 학습한다.
- 3D 및 2D 주석을 혼합한 데이터 전략으로 학습하며, 정점과 관절에 대해 L1 손실을 사용하고 행렬 G를 통한 L1 회귀 관절 손실 및 2D 투사 손실을 활용한다.
- 학습 가능한 MLP를 통해 거친 메쉬(431 정점)를 전체 메쉬(SMPL 토폴로지의 경우 6890 정점)로 업샘플링하여 엔드투엔드 학습을 가능하게 한다.
실험 결과
연구 질문
- RQ1하나의 이미지에서 메쉬 정점과 신체 관절 간의 전역 상호작용을 Transformer 인코더가 효과적으로 모델링하여 정확한 3D 재구성이 가능한가?
- RQ2Masked Vertex Modeling이 토폴로지 고정 그래프 접근법에 비해 가려짐 및 비국소 의존성에 대해 강건성을 향상시키는가?
- RQ3프레임워크가 매개변수 몸 모델에 의존하지 않고 3D 손 같은 비인체 메쉬에도 일반화될 수 있는가?
- RQ4백본(backbone) 선택 및 입력 특징 해상도가 재구성 정확도에 어떤 영향을 미치는가?
주요 결과
- METRO는 3DPW에서 MPVE, MPJPE, PA-MPJPE에서 SOTA를 달성했으며 보고된 설정에서 각각 88.2, 77.1, 47.9를 기록했고 Human3.6M에서는 54.0, 36.7를 달성했다.
- METRO는 3D/2D 데이터 혼합 학습에도 불구하고 3DPW와 Human3.6M에서 이전 방법들을 능가하여 가려짐 및 포즈 변화에 대한 강건성을 입증했다.
- Masked Vertex Modeling은 중요한 개선을 가져왔으며(예: Human3.6M에서 PA-MPJPE가 39.1에서 36.7로 감소하는 등), ablative 연구에서 확인된다.
- METRO는 외부 데이터 없이 FreiHAND 리더보드에서 1위를 차지하며 이전 방법들보다 큰 차이로 우수한 성능을 보였다.
- Self-attention 시각화는 머리/손/발 영역의 신호로부터 손목 예측이 이루어지는 등 의미 있는 비국소 상호작용이 있음을 보여주며 비국소 모델링의 효과를 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.