QUICK REVIEW

[論文レビュー] End-to-End Human Pose and Mesh Reconstruction with Transformers

Kevin Lin, Lijuan Wang|arXiv (Cornell University)|Dec 17, 2020

Human Pose and Action Recognition参考文献 51被引用数 42

ひとこと要約

METRO は、Masked Vertex Modeling を用いた Transformer ベースのエンコーダで、単一画像から3Dボディ関節とメッシュ頂点を共同に予測し、パラメトリックメッシュモデルに依存せずに 3DPW、Human3.6M、FreiHAND で最先端の結果を達成します。

ABSTRACT

We present a new method, called MEsh TRansfOrmer (METRO), to reconstruct 3D human pose and mesh vertices from a single image. Our method uses a transformer encoder to jointly model vertex-vertex and vertex-joint interactions, and outputs 3D joint coordinates and mesh vertices simultaneously. Compared to existing techniques that regress pose and shape parameters, METRO does not rely on any parametric mesh models like SMPL, thus it can be easily extended to other objects such as hands. We further relax the mesh topology and allow the transformer self-attention mechanism to freely attend between any two vertices, making it possible to learn non-local relationships among mesh vertices and joints. With the proposed masked vertex modeling, our method is more robust and effective in handling challenging situations like partial occlusions. METRO generates new state-of-the-art results for human mesh reconstruction on the public Human3.6M and 3DPW datasets. Moreover, we demonstrate the generalizability of METRO to 3D hand reconstruction in the wild, outperforming existing state-of-the-art methods on FreiHAND dataset. Code and pre-trained models are available at https://github.com/microsoft/MeshTransformer.

研究の動機と目的

SMPL のようなパラメトリックモデルを超えた単眼画像からの堅牢な3Dヒトポーズとメッシュ再構成を動機付ける。
大きな姿勢変化や遮蔽に対処するため、関節とメッシュ頂点間のグローバル（非局所）相互作用をモデル化する。
エンドツーエンドのフレームワークで3D関節座標とメッシュ頂点を同時に予測する。
自己注意機構を用いて接続を学習し、固定されたメッシュトポロジに依存するのを排除する。
人間の体以外の3Dハンドや他のメッシュの再構成にも一般化可能であることを示す。

提案手法

ImageNet で事前学習された CNN を用いて画像特徴を抽出する。
関節と頂点の3D座標を出力するため、次第に次元を削減する多層トランスフォーマーエンコーダを導入する。
画像特徴とテンプレートメッシュ座標を連結してジョイントと頂点のクエリを形成することで位置エンコーディングを適用する。
入力クエリをランダムにマスキングしてトランスフォーマーが残りの手がかりを用いてすべての関節/頂点を推定するように学習する、Masked Vertex Modeling (MVM) を採用する。
3Dおよび2Dアノテーションの混合データ戦略で訓練し、頂点と関節にL1損失、行列 G によるL1回帰関節損失、および2D投影損失を用いる。
粗いメッシュ（431頂点）を学習可能なMLPを介して完全なメッシュ（SMPLトポロジーの6890頂点）へアップサンプリングし、エンドツーエンド訓練を可能にする。

実験結果

リサーチクエスチョン

RQ1単一画像からの正確な3D再構成のために、トランスフォーマーエンコーダはメッシュ頂点と身体関節間のグローバルな相互作用を効果的にモデル化できるか？
RQ2Topology固定のグラフ手法と比較して、Masked Vertex Modeling は遮蔽や非局所依存性に対する頑健性を向上させるか？
RQ3このフレームワークは、パラメトリックなボディモデルに依存せず、3Dハンドなど非人間のメッシュにも一般化できるか？
RQ4バックボーンの選択と入力特徴解像度が再構成精度に与える影響はどれくらいか？

主な発見

METRO は 3DPW の MPVE、MPJPE、PA-MPJPE で最先端を達成（88.2, 77.1, 47.9）および Human3.6M（54.0, 36.7）を達成。
混合の3D/2Dデータで訓練しても、3DPW および Human3.6M で従来法を上回り、遮蔽と姿勢のばらつきに対する頑健性を示す。
Masked Vertex Modeling は結果を大幅に改善（例：Human3.6M の PA-MPJPE が 39.1 から 36.7 へ）
METRO は外部データなしで FreiHAND のリーダーボードで第一位を獲得し、従来手法を大幅に上回る。
Self-attention の可視化は意味のある非局所相互作用を示し（例：手首の予測が頭部/手/足領域の手がかりに依存するなど）、非局所モデリングの有効性を支持する。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。