[論文レビュー] Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression
DEKRを導入する。多分岐の適応畳み込みを用いてキーポイント表現を分離し、キーポイントの位置を直接回帰する下位レベルのポーズ推定法で、COCOとCrowdPoseで最先端の結果を達成する。
In this paper, we are interested in the bottom-up paradigm of estimating human poses from an image. We study the dense keypoint regression framework that is previously inferior to the keypoint detection and grouping framework. Our motivation is that regressing keypoint positions accurately needs to learn representations that focus on the keypoint regions. We present a simple yet effective approach, named disentangled keypoint regression (DEKR). We adopt adaptive convolutions through pixel-wise spatial transformer to activate the pixels in the keypoint regions and accordingly learn representations from them. We use a multi-branch structure for separate regression: each branch learns a representation with dedicated adaptive convolutions and regresses one keypoint. The resulting disentangled representations are able to attend to the keypoint regions, respectively, and thus the keypoint regression is spatially more accurate. We empirically show that the proposed direct regression method outperforms keypoint detection and grouping methods and achieves superior bottom-up pose estimation results on two benchmark datasets, COCO and CrowdPose. The code and models are available at https://github.com/HRNet/DEKR.
研究の動機と目的
- ヒートマップベースの検出とグルーピングに依存するのではなく、表現をキーポイント領域に集中させることで、下位のポーズ推定の改善を促す。
- 適応畳み込みと多ブランチアーキテクチャを用いて各キーポイントを個別に回帰する、分離された回帰フレームワーク(DEKR)を提案する。
- DEKRによる直接的なキーポイント回帰が、COCOとCrowdPoseで従来のキーポイント検出とグルーピングを上回ることを実証する。
提案手法
- キーポイント領域のピクセルを活性化するために、ピクセル単位の空間変換器に触発された適応畳み込みを用いる。
- 各ブランチが1つのキーポイントに専用の表現を学習し、その2次元オフセットを回帰する、マルチブランチ構造を採用する。
- キーポイントと中心点の回帰損失とヒートマップ損失を組み合わせた学習と、重み付きOKSベースの評価を追加する。
- 推論時には中心ベースおよびポーズベースの非極大抑制を行い、候補をランク付けするポーズスコアリングネットワークを用いる。
実験結果
リサーチクエスチョン
- RQ1分離された、キーポイントごとの表現は、下位のポーズ推定における直接的なキーポイント回帰の品質を改善するだろうか?
- RQ2適応活性化と別個の回帰ブランチを組み合わせることで、単一ブランチ回帰やグルーピング手法より局所化精度が高くなるだろうか?
- RQ3標準ベンチマークであるCOCOとCrowdPoseにおけるDEKRの性能向上は、最先端の下位ポーズ推定法と比べてどの程度か?
主な発見
| 方法 | 入力サイズ | AP | AP50 | AP75 | APM | APL | AR | AR-M | AR-L |
|---|---|---|---|---|---|---|---|---|---|
| DEKR (D-32 ss) | 512 | 68.0 | 86.7 | 74.5 | 62.1 | 77.7 | 73.0 | 66.2 | 82.7 |
| DEKR (D-48 ss) | 640 | 71.0 | 88.3 | 77.4 | 66.7 | 78.5 | 76.0 | 70.6 | 84.0 |
| DEKR (D-32 ms) | 512 | 71.0 | 87.7 | 77.1 | 65.2 | 77.8 | 75.9 | 70.5 | 83.6 |
| DEKR (D-48 ms) | 640 | 71.0 | 89.2 | 78.0 | 67.1 | 76.9 | 76.7 | 71.5 | 83.9 |
| DEKR (CrowdPose val, D-32 ss) | 512 | 65.5 | 86.2 | ? | 64.1 | 75.5 | 75.4 | 69.7 | 83.0 |
| DEKR (CrowdPose val, D-48 ss) | 640 | 67.0 | 88.0 | ? | 66.6 | 75.8 | 76.9 | 71.5 | 83.9 |
- DEKRはCOCOおよびCrowdPoseで最先端の下位ポーズ推定結果を達成する。
- 単一ブランチ回帰は、個別のキーポイント領域に焦点を当てる多ブランチの分離アプローチにより上回られない。
- 適応活性化と個別回帰を組み合わせると、COCO valでHRNet-W32使用時に68.0 AP、HRNet-W48使用時に71.0 APなど、顕著なAPの向上を達成する。
- COCO valで、HRNet-W32のDEKRは68.0 APを達成; HRNet-W48では71.0 AP; マルチスケールテストでW32で71.0 AP、W48で72.8 APを得る。
- COCO test-devで、HRNet-W32のDEKRは67.3 APを達成; HRNet-W48は70.0 AP、マルチスケールでそれぞれ69.8と71.0に到達。
- CrowdPoseでは、DEKRが65.5 AP(val, D-32 ss)および67.0 AP(val, D-48 ss)を達成; マルチスケールでそれぞれ67.5と68.3に改善。
- アブレーションにより、適応活性化が約3.5 AP、分離回帰が約2.6 APをCOCO valでHRNet-W32とともに寄与することを示す。
- グルーピングや後処理のマッチング戦略(例:CenterNetの吸収スキーム)と比較して、DEKRはヒートマップベースの後処理を必要とせず、単一スケールで一貫した利得を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。