[論文レビュー] SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
本論文は、32の多様なEHPSデータセットとViTバックボーンからの最大 4.5M の学習インスタンスを用いて、一般的なEHPS基盤モデルである SMPLer-X を開発し、クロスドメイン性能を強化し、複数のベンチマークで最先端の結果を達成します。
Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods still depend largely on a confined set of training datasets. In this work, we investigate scaling up EHPS towards the first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the backbone and training with up to 4.5M instances from diverse data sources. With big data and the large model, SMPLer-X exhibits strong performance across diverse test benchmarks and excellent transferability to even unseen environments. 1) For the data scaling, we perform a systematic investigation on 32 EHPS datasets, including a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. 2) For the model scaling, we take advantage of vision transformers to study the scaling law of model sizes in EHPS. Moreover, our finetuning strategy turn SMPLer-X into specialist models, allowing them to achieve further performance boosts. Notably, our foundation model SMPLer-X consistently delivers state-of-the-art results on seven benchmarks such as AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF (62.3 mm PVE without finetuning). Homepage: https://caizhongang.github.io/projects/SMPLer-X/
研究の動機と目的
- 多様なシナリオ全体での一般化を向上させるために EHPS のスケーリングを動機づける。
- データの有用性とドメインギャップを理解するために、32 の EHPS データセットを体系的にベンチマークする。
- EHPS のための Vision Transformer バックボーンを用いたモデルのスケーリングを調査する。
- ベンチマーク固有の利得のために SMPLer-X を専門モデルへファインチューニングすることを示す。
- 頑健な EHPS 基盤のためのデータセット指針と転移性の洞察を提供する。
提案手法
- 特徴抽出器として ViT ベースのバックボーン(ViT-Huge を含む)を使用する。
- 単純な三部構成のアーキテクチャを採用する:バックボーン、手/顔の ROI cropping 用ネック、体の部位の回帰ヘッド。
- ベンチマークの洞察に導かれたデータ選択を伴う、32 の EHPS データセットの多様なミックスで訓練する。
- データ属性(サイズ、シーンの多様性、実データ/合成データ、アノテーションタイプ)とそれらが一般化に与える影響を分析する。
- 一般化モデルをドメイン固有のスペシャリストへファインチューニングして、ベンチマークの性能を向上させる。
![Figure 1: Scaling up EHPS. Both data and model scaling are effective in reducing mean errors on primary metrics across key benchmarks: AGORA [ 50 ] , UBody [ 39 ] , EgoBody [ 68 ] , 3DPW [ 58 ] and EHF [ 51 ] . OSX [ 39 ] and H4W [ 46 ] are SOTA methods. Area of the circle indicates model size, with](https://ar5iv.labs.arxiv.org/html/2309.17448/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1多くの EHPS データセットにわたる学習データの規模を拡大することは、多様なテスト環境への一般化にどう影響するのか?
- RQ2モデルサイズの増大(ViT バックボーン)を増やすことが EHPS の精度とロバスト性にどのような影響を与えるのか?
- RQ3ターゲットを絞ったファインチューニングを通じて、単一の基盤モデルが特定の EHPS ベンチマークに効果的に特化できるか?
- RQ4合成データと疑似ラベル付きデータセットは、実際の EHPS タスクに意味のある転移を起こすのか?
- RQ5ドメイン間ギャップを最小化しつつ、クロスドメインの EHPS 性能を最大化するデータセット選択戦略は何か?
主な発見
- データとモデルのスケーリングは、主要な EHPS ベンチマーク全体で主要な誤差を削減し、AGORA、UBody、EgoBody、3DPW、EHF で誤差が110 mm超から70 mm未満へと低下する。
- 基盤モデルは、DNA-Rendering や ARCTIC のような未見の環境への強い転移を示す。
- 一般化モデル SMPLer-X をスペシャリストモデルにファインチューニングすることで、AGORA で新しい SOTA を達成し、EgoBody、UBody、EHF を改善する。
- ドメインギャップにもかかわらず、合成データは EHPS の性能に大きく寄与し、データセットの組み合わせは頑健な一般化をもたらす。
- Pseudo-SMPL-X ラベルは、地上 truth SMPL-X アノテーションが利用できない場合に有用で、適用性を向上させる可能性がある。
![Figure 2: Dataset attribute distributions. a) and d) are image feature extracted by HumanBench [ 57 ] and OSX [ 39 ] pretrained ViT-L backbone. b) Global orientation (represented by rotation matrix) distribution. c) Body pose (represented by 3D skeleton joints) distribution. Both e) scenes and f) Re](https://ar5iv.labs.arxiv.org/html/2309.17448/assets/images/benchmark_distributions.jpg)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。