[論文レビュー] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation
HigherHRNetは、スケール対応型の高解像度特徴ピラミッドと多解像度監督およびヒートマップの集約を導入して、ボトムアップのマルチ人姿勢推定を向上させ、COCO test-devで最先端の結果を達成し、CrowdPoseでも高い性能を示します。
Bottom-up human pose estimation methods have difficulties in predicting the correct pose for small persons due to challenges in scale variation. In this paper, we present HigherHRNet: a novel bottom-up human pose estimation method for learning scale-aware representations using high-resolution feature pyramids. Equipped with multi-resolution supervision for training and multi-resolution aggregation for inference, the proposed approach is able to solve the scale variation challenge in bottom-up multi-person pose estimation and localize keypoints more precisely, especially for small person. The feature pyramid in HigherHRNet consists of feature map outputs from HRNet and upsampled higher-resolution outputs through a transposed convolution. HigherHRNet outperforms the previous best bottom-up method by 2.5% AP for medium person on COCO test-dev, showing its effectiveness in handling scale variation. Furthermore, HigherHRNet achieves new state-of-the-art result on COCO test-dev (70.5% AP) without using refinement or other post-processing techniques, surpassing all existing bottom-up methods. HigherHRNet even surpasses all top-down methods on CrowdPose test (67.6% AP), suggesting its robustness in crowded scene. The code and models are available at https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation.
研究の動機と目的
- 特に小さい人物に対して、ボトムアップのマルチ人姿勢推定におけるスケール変動へ対応する。
- スケールを跨いでも空間的な詳細を保持する高解像度特徴ピラミッドを開発する。
- マルチ解像度の監督で訓練し、推論時にマルチ解像度のヒートマップ集約を行う。
- COCOでのキー・ポイント局在精度の改善と、混雑した場面(CrowdPose)における頑健性を示す。
提案手法
- HRNetを基に、解像度1/4から始まる高解像度特徴ピラミッドを作成し、デコンボリューションを用いてより高解像度のヒートマップを生成する。
- ピラミッド全解像度にわたってグラウンドトゥルースのキー点を変換してマルチ解像度監督を適用し、各解像度でガウス熱マップを使用する。
- 複数の解像度でヒートマップを予測し、推論時にそれらを集約してスケール対応のヒートマップを形成する。
- 連想埋め込みを用いてキー点をグルーピングし、人物インスタンスを形成する。
- 特徴とヒートマップを精練するためにデコンボリューションモジュールに残差ブロックを追加するオプションがある。
実験結果
リサーチクエスチョン
- RQ1スケール認識型の高解像度特徴ピラミッドは、ボトムアップ姿勢推定において小さい人物のキー点局在を改善できるか?
- RQ2マルチ解像度監督とヒートマップ集約は、後処理の改良なしに性能向上をもたらすか?
- RQ3既存のボトムアップおよびトップダウン手法と比較して、HigherHRNetはCOCOおよびCrowdPoseでどのような性能を示すか?
主な発見
| Method | Feat. stride/resolution | AP | AP^M | AP^L |
|---|---|---|---|---|
| HigherHRNet (Ours) | 2/256 | 66.9 | 61.0 | 75.7 |
| HigherHRNet (Ours) | 1/512 | 66.5 | 61.1 | 74.9 |
- HigherHRNetは、HRNetベースラインを上回る66.4 AP、COCO2017 test-devでマルチスケールテストを用いて70.5 APを達成し、従来のボトムアップ手法を上回る。
- 中サイズの人物では、Largeに比べてより大きな利得(APMの改善)を示し、スケール変動の取り扱いが向上している。
- COCO2017 test-devでは、HigherHRNet-W48のマルチスケールテストで70.5 APに達し、精緻化なしで全ての既存のボトムアップ手法を上回る。
- CrowdPoseテストでは、HigherHRNet-W48が67.6 APを達成し、トップダウン法や従来のボトムアップ法を上回り、混雑した場面での頑健性を示す。
- アブレーション研究では、デコンボリューション、特徴の連結、ヒートマップ集約、バックボーン容量の増加がすべてAPの向上に寄与し、1つのデコンボリューションモジュールが一般にCOCOの性能を最も良く引き出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。