QUICK REVIEW

[論文レビュー] RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation

Tao Jiang, Xinchen Xie|arXiv (Cornell University)|Jul 11, 2024

Human Pose and Action Recognition被引用数 5

ひとこと要約

RTMW は、RTMPose をベースに PAFPN と Hierarchical Encoding Module を組み込んだ、リアルタイムでマルチ人の 2D およびモノキュラー 3D 全身ポーズ推定モデル。身体部位全体の細粒度なポーズ精度を向上させる。

ABSTRACT

Whole-body pose estimation is a challenging task that requires simultaneous prediction of keypoints for the body, hands, face, and feet. Whole-body pose estimation aims to predict fine-grained pose information for the human body, including the face, torso, hands, and feet, which plays an important role in the study of human-centric perception and generation and in various applications. In this work, we present RTMW (Real-Time Multi-person Whole-body pose estimation models), a series of high-performance models for 2D/3D whole-body pose estimation. We incorporate RTMPose model architecture with FPN and HEM (Hierarchical Encoding Module) to better capture pose information from different body parts with various scales. The model is trained with a rich collection of open-source human keypoint datasets with manually aligned annotations and further enhanced via a two-stage distillation strategy. RTMW demonstrates strong performance on multiple whole-body pose estimation benchmarks while maintaining high inference efficiency and deployment friendliness. We release three sizes: m/l/x, with RTMW-l achieving a 70.2 mAP on the COCO-Wholebody benchmark, making it the first open-source model to exceed 70 mAP on this benchmark. Meanwhile, we explored the performance of RTMW in the task of 3D whole-body pose estimation, conducting image-based monocular 3D whole-body pose estimation in a coordinate classification manner. We hope this work can benefit both academic research and industrial applications. The code and models have been made publicly available at: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose

研究の動機と目的

体、手、顔、足を含む全身のリアルタイムポーズ推定の課題に対処する。
既存の RTMPose アーキテクチャを活用・強化し、マルチスケール特徴融合によって微細部の局在性を向上させる。
手動で整列された複数データセットを用いたリッチなトレーニング regime と二段階蒸留を活用して性能を向上させる。
座標分類戦略（SimCC）とデータセット統合トレーニングを用いて、モノキュラーの3D全身ポーズ推定へアプローチを拡張する。
産業用途とリアルタイム推論のため、複数サイズのオープンソースモデルを提供する。
COCO-Wholebody および H3WB で競争力のある精度を示しつつ、推論効率を維持する。

提案手法

RTMPose に PAFPN (Feature Pyramid) と HEM (Hierarchical Encoding Module) を組み込み、小さな部位（顔、手、足）のマルチスケール特徴解像度を向上させる。
高解像度のヒートマップを避け、アーキテクチャの複雑さを低減するため、2D キーポイントには SimCC ベースの座標分類を採用する。
DWPose に倣い二段階蒸留を適用し、COCO-Wholebody 133点スキーマにマッピングされた 14 の手動整列済みオープンソースデータセットを共同訓練する。
ルート点ベースの z オフセット手法を用いてデータセットを統一する、z 軸予測ブランチを追加して RTMW を 3D に拡張する。
2D/3D を組み合わせたデータセット上で z-axis マスクを用いて訓練し、統一した 2D-3D トレーニングを可能にし、3D ポーズ推定品質を向上させる。
リアルタイム展開と産業利用のため、オープンソースのコードとモデル（RTMW/RTMW3D）を提供する。

実験結果

リサーチクエスチョン

RQ1RTMW はリアルタイム推論を維持しつつ、全身ポーズ推定（体、顔、手、足）で優れた精度を達成できるか。
RQ2PAFPN と HEM は、手や足のような低解像度部位の局在精度にどのような影響を与えるか。
RQ3二段階蒸留とデータセット整列は、RTMPose を超えるオープンソース全身ポーズ性能を改善するか。
RQ4SimCC ベースの座標分類アプローチを、統一トレーニング方式でモノキュラー3D全身ポーズ推定に効果的に適用できるか。
RQ5CPU 上での RTMW/RTMW3D の実用的な性能（速度/遅延）はどの程度で、既存のオープンソース手法とどう比較されるか。

主な発見

RTMW-l は COCO-Wholebody で 70.2 mAP を達成し、オープンソースモデルとして本ベンチマークで 70 mAP を超える。
RTMW3D は 3D 全身ポーズ推定で堅牢な性能を示す（COCO-Wholebody テスト風の結果と H3WB ベンチマーク）。
PAFPN および HEM モジュールは、低解像度部位（手/足）の局在と全身 AP/AR 全体を大幅に改善する。
14 データセット（COCO-Wholebody 133点スキーマへ整列）に対する二段階蒸留と結合訓練は、RTMPose のベースラインより精度を向上させる。
RTMW/RTMW3D は ONNXRuntime を用いた CPU 上でリアルタイム展開に適した競争力のある推論速度を維持する。
3D では、root-point z-offset フレームワークを用いた SimCC ベースのアプローチが、モノキュラー 3D 全身ポーズ推定を効果的に提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。