[논문 리뷰] SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
이 논문은 4.5M training instances에서 최대 32개의 다양한 EHPS 데이터셋과 ViT 백본을 사용하여 일반화 가능한 EHPS 기초 모델 SMPLer-X를 개발하고, 다양한 벤치마크에서 강력한 교차 도메인 성능과 최첨단 결과를 달성합니다.
Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods still depend largely on a confined set of training datasets. In this work, we investigate scaling up EHPS towards the first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the backbone and training with up to 4.5M instances from diverse data sources. With big data and the large model, SMPLer-X exhibits strong performance across diverse test benchmarks and excellent transferability to even unseen environments. 1) For the data scaling, we perform a systematic investigation on 32 EHPS datasets, including a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. 2) For the model scaling, we take advantage of vision transformers to study the scaling law of model sizes in EHPS. Moreover, our finetuning strategy turn SMPLer-X into specialist models, allowing them to achieve further performance boosts. Notably, our foundation model SMPLer-X consistently delivers state-of-the-art results on seven benchmarks such as AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF (62.3 mm PVE without finetuning). Homepage: https://caizhongang.github.io/projects/SMPLer-X/
연구 동기 및 목표
- 다양한 시나리오에서 일반화를 개선하기 위한 EHPS 확장 추진.
- 데이터 활용도와 도메인 격차를 이해하기 위해 32개 EHPS 데이터셋을 체계적으로 벤치마킹합니다.
- EHPS를 위한 ViT 기반 백본의 모델 규모 확장이 어떤 영향을 미치는지 조사합니다.
- 벤치마크별 이득을 얻기 위해 SMPLer-X를 전문 모델로 미세조정하는 것을 시연합니다.
- 강 robust EHPS 기초를 위한 데이터 셋 가이드라인과 전이 가능성 통찰을 제공합니다.
제안 방법
- 특징 추출기로 ViT 기반 백본을 사용합니다( ViT-Huge 포함 ).
- 세 부분으로 구성된 간단한 아키텍처를 사용합니다: 백본, 손/얼굴 ROI 자르기를 위한 네크, 신체 부위를 위한 회귀 헤드.
- 벤치마크 인사이트에 따라 데이터 선택이 guided된 32개 EHPS 데이터셋의 다양한 혼합으로 학습합니다.
- 데이터의 속성(크기, 장면 다양성, 실제/합성, 주석 유형)과 일반화에 미치는 영향을 분석합니다.
- 일반ist 모델을 도메인 특화 전문가로 미세조정하여 벤치마크에서의 성능을 높입니다.
![Figure 1: Scaling up EHPS. Both data and model scaling are effective in reducing mean errors on primary metrics across key benchmarks: AGORA [ 50 ] , UBody [ 39 ] , EgoBody [ 68 ] , 3DPW [ 58 ] and EHF [ 51 ] . OSX [ 39 ] and H4W [ 46 ] are SOTA methods. Area of the circle indicates model size, with](https://ar5iv.labs.arxiv.org/html/2309.17448/assets/x1.png)
실험 결과
연구 질문
- RQ1다수의 EHPS 데이터셋에서 훈련 데이터를 확장하는 것이 다양한 테스트 환경에 대한 일반화에 어떤 영향을 미치는가?
- RQ2모델 규모(ViT 백본)을 증가시키는 것이 EHPS 정확도와 강건성에 어떤 영향을 주는가?
- RQ3단일 기초 모델이 타깃 미세조정을 통해 특정 EHPS 벤치마크에 효과적으로 전문화될 수 있는가?
- RQ4합성 및 의사 라벨링 데이터가 실제 EHPS 과제에 의미 있게 전이되는가?
- RQ5도메인 간 격차를 최소화하면서 크로스-도메인 EHPS 성능을 극대화하는 데이터셋 선택 전략은 무엇인가?
주요 결과
- 데이터와 모델의 확장은 주요 EHPS 벤치마크에서 주 오차를 모두 줄이며, AGORA, UBody, EgoBody, 3DPW, EHF에서 오차가 110 mm를 넘는 수준에서 70 mm 미만으로 감소합니다.
- 기초 모델은 DNA-Rendering 및 ARCTIC과 같은 보지 않은 환경으로의 강한 전이를 보여줍니다.
- 일반ist SMPLer-X를 전문 모델로 미세조정하면 AGORA에서 새로운 SOTA를 달성하고 EgoBody, UBody, EHF의 성능도 향상됩니다.
- 합성 데이터는 도메인 격차에도 불구하고 EHPS 성능에 상당한 기여를 하며, 데이터셋의 조합이 강건한 일반화를 제공합니다.
- Pseudo-SMPL-X 라벨은 실제 SMPL-X 주석이 없을 때 유용하며 적용성을 높일 수 있습니다.
![Figure 2: Dataset attribute distributions. a) and d) are image feature extracted by HumanBench [ 57 ] and OSX [ 39 ] pretrained ViT-L backbone. b) Global orientation (represented by rotation matrix) distribution. c) Body pose (represented by 3D skeleton joints) distribution. Both e) scenes and f) Re](https://ar5iv.labs.arxiv.org/html/2309.17448/assets/images/benchmark_distributions.jpg)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.