QUICK REVIEW

[論文レビュー] Humans in 4D: Reconstructing and Tracking Humans with Transformers

Shubham Goel, Georgios Pavlakos|arXiv (Cornell University)|May 31, 2023

Human Pose and Action Recognition被引用数 8

ひとこと要約

論文は HMR 2.0（完全なトランスフォーマー系ベースの 3D 人間メッシュ回復モデル）を提案し、4DHumans を構築して動画内の複数の人間を同時に再構成・追跡する。追跡性能は最先端で、ポーズ/アクション認識の性能も向上。

ABSTRACT

We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/.

研究の動機と目的

単一画像からの 3D 人体ポーズと形状再構成のためのトランスフォーマー系アプローチを動機づける。
CNN/LSTM ベースの方法を上回る 3D ポーズ精度を目指して HMR 2.0 を完全なトランスフォーマー・バックボーンとして開発する。
遮蔽がある動画で複数の人間を共同で再構成・追跡するための 4DHumans を作成する。
HMR 2.0 の 3D ポーズ推定を用いた下流のアクション認識を改善する。
SMPL ベースの表現と 3D 追跡を統合することで汎用的な追跡フレームワークを提供する。

提案手法

従来の CNN/LSTM コンポーネントを ViT ベースの画像エンコーダ（ViT-H/16）に置換する
トランスフォーマー・デコーダを用いて画像トークンから SMPL パラメータ（θ体、β形状、πカメラ平行移動）を回帰する
2D/3D 損失と敵対的 priors の混合で訓練し、妥当な 3D ポーズを強制する
無ラベルデータ上でオフ・ザ・シェルフ検出器と ProHMR フィッティングを用いて偽 Ground-Truth の SMPL フィットを生成する
HMR 2.0 を PHALP′ の 3D 追跡フレームワークに統合して 4DHumans を作成し、共同再構成と追跡を実現する
AV A の下流のトランスフォーマー系分類器にポーズ推定を入力してアクション認識の改善を示す

実験結果

リサーチクエスチョン

RQ1完全にトランスフォーマー系のアーキテクチャが単一画像からの最先端の 3D 人間メッシュ回復を達成できるか？
RQ2トランスフォーマー支援の HMR が動画の 3D へリフトされた場合、追跡性能を改善するか？
RQ3HMR 2.0 からの 3D ポーズ品質が下流のアクション認識にどのような影響を与えるか？
RQ4PHALP′ ベースの追跡パイプラインは異なる 3D ポーズ推定器を組み込むのに十分汎用か？
RQ5ポーズ/2D 整列性能に対する訓練データ規模とバックボーン事前学習の影響はどの程度か？

主な発見

Tracker	Pose Engine	Posetrack	HOTA ↑	IDs ↓	MOTA ↑
PHALP'	PARE [34]	53.6	510	59.4	76.8
PyMAF-X [88]	–	53.7	472	59.2	76.9
CLIFF [41]	–	53.5	551	58.7	76.5
PyMAF [89]	–	53.0	623	58.6	76.1
HMAR [65]	–	53.6	482	59.3	77.1
HMR 2.0	–	54.1	456	59.4	77.4

HMR 2.0 は 3D ポーズ精度（MPJPE/PA-MPJPE）と 2D キーポイント再投影指標で従来手法を上回り、特に難しいポーズで顕著である。
4DHumans は PoseTrack で最先端の追跡を達成し、ID スイッチと全体的な追跡指標を改善。
HMR 2.0 のアクターのポーズ品質は AVA でのアクション認識性能を大幅に向上させ、外観特徴と組み合わせると 42.3 mAP に達する。
SMPL 空間表現を用いる PHALP′ は、複数の 3D ポーズ推定器と互換性のある汎用的な追跡バックボーンを提供。
より大きく多様な訓練データと ViT の事前学習により、従来の CNN ベースバックボーンに対して大幅な性能向上を得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。