Skip to main content
QUICK REVIEW

[論文レビュー] Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

Jie Yang, Ailing Zeng|arXiv (Cornell University)|Feb 3, 2023
Human Pose and Action Recognition被引用数 16
ひとこと要約

ED-Poseは、明示的な人間およびキーポイントのボックス検出を用いてグローバルとローカルのポーズ情報を統合する完全なエンドツーエンドのフレームワークを提示し、CrowdPoseで最先端の結果を達成し、ポスト処理なしでCOCOでも高い性能を示します。

ABSTRACT

This paper presents a novel end-to-end framework with Explicit box Detection for multi-person Pose estimation, called ED-Pose, where it unifies the contextual learning between human-level (global) and keypoint-level (local) information. Different from previous one-stage methods, ED-Pose re-considers this task as two explicit box detection processes with a unified representation and regression supervision. First, we introduce a human detection decoder from encoded tokens to extract global features. It can provide a good initialization for the latter keypoint detection, making the training process converge fast. Second, to bring in contextual information near keypoints, we regard pose estimation as a keypoint box detection problem to learn both box positions and contents for each keypoint. A human-to-keypoint detection decoder adopts an interactive learning strategy between human and keypoint features to further enhance global and local feature aggregation. In general, ED-Pose is conceptually simple without post-processing and dense heatmap supervision. It demonstrates its effectiveness and efficiency compared with both two-stage and one-stage methods. Notably, explicit box detection boosts the pose estimation performance by 4.5 AP on COCO and 9.9 AP on CrowdPose. For the first time, as a fully end-to-end framework with a L1 regression loss, ED-Pose surpasses heatmap-based Top-down methods under the same backbone by 1.2 AP on COCO and achieves the state-of-the-art with 76.6 AP on CrowdPose without bells and whistles. Code is available at https://github.com/IDEA-Research/ED-Pose.

研究の動機と目的

  • グローバル(人間レベル)とローカル(キーポイントレベル) の手掛かりを統合して、ポスト処理なしのエンドツーエンドの多人数ポーズ推定を実現する動機づけ。
  • 協調的なグローバル-ローカル学習を可能にする、2つの明示的なボックス検出デコーダ(人間用および人間からキーポイントへのデコーダ)を提案。
  • 明示的なボックス検出が収束を加速し、COCOとCrowdPoseの両方で精度を向上させることを示す。
  • さまざまなバックボーン下で、ワンステージ、ツーステージ、およびDETRベース手法と比較して競争力のあるまたは優れた性能を示す。

提案手法

  • 人とキーポイントの明示的なボックスを予測するための Human Detection Decoder および Human-to-Keypoint Detection Decoder を備えた ED-Pose を紹介。
  • 人とキーポイントの両方をボックス予測((x,y,h,w))として表現し、統一されたL1回帰損失とHungarianセットベースのマッチングで最適化する。
  • 粗–細のクエリ選択を用いて人間クエリを初期化・精練し、その後人間-to-キーポイントのクエリ拡張でキーポイントのボックスを予測。
  • 人間検出とキーポイント検出の相互作用的学習を用い、グローバルな文脈をローカルなキーポイント予測へ伝搬。
  • dense heatmap supervision やポスト処理を用いず、両段階にわたって共有された回帰ベースの損失体系を用いてエンドツーエンドで訓練。
  • COCOとCrowdPose全体でトップダウン、ボトムアップ、DETRベース手法と比較し、効率と精度の利点を示す。

実験結果

リサーチクエスチョン

  • RQ1人間とキーポイントの明示的なボックス検出が、ポスト処理なしの完全なエンドツーエンドの姿勢推定フレームワークを実現できるか?
  • RQ2統一されたボックス表現と一貫したL1回帰損失は、マルチ人の姿勢推定の収束速度と精度を改善するか?
  • RQ3Occlusionや混雑シーンを扱うエンドツーエンドフレームワークにおいて、グローバル(人間)とローカル(キーポイント)の依存はどのように相互作用するか?
  • RQ4COCOとCrowdPoseで明示的なボックス検出を使用した場合、既存手法と比較してどの程度の性能向上が得られるか?

主な発見

  • 明示的な人間ボックス検出は収束と精度を大幅に向上させる(COCOで+4.5 AP、CrowdPoseで+9.9 AP)。
  • ED-Poseは同じバックボーンを使用したCOCOで、同等のヒートマップベースのトップダウン手法より1.2 AP高く、PETRを顕著な差で上回る。
  • CrowdPoseでは、マルチスケールテストやフリップなしで76.6 APを達成し、最先端の結果を達成。
  • DETRベース手法と比較して、ED-Poseは収束が速く精度が高く、ポスト処理なしで優れたエンドツーエンド性能を提供。
  • Swin-Lバックボーンでは、COCO val/test-devで75.8 AP、CrowdPoseで76.6 APを達成(Swin-Lで特別な工夫なし)。
  • アブレーションは、明示的な人間検出、キーポイントボックス表現(x,y,w,h) の有効性、単純な(x,y)より上、そして人間とキーポイント間の相互作用的学習を確認。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。