[論文レビュー] Deep High-Resolution Representation Learning for Human Pose Estimation
この論文は処理全体で高解像度表現を維持し、複数スケールの特徴を反復的に融合する高解像度ネットワークHRNetを提案し、COCO、MPII、およびPoseTrackデータセットで最先端の姿勢推定を達成する。
This is an official pytorch implementation of Deep High-Resolution Representation Learning for Human Pose Estimation. In this work, we are interested in the human pose estimation problem with a focus on learning reliable high-resolution representations. Most existing methods recover high-resolution representations from low-resolution representations produced by a high-to-low resolution network. Instead, our proposed network maintains high-resolution representations through the whole process. We start from a high-resolution subnetwork as the first stage, gradually add high-to-low resolution subnetworks one by one to form more stages, and connect the mutli-resolution subnetworks in parallel. We conduct repeated multi-scale fusions such that each of the high-to-low resolution representations receives information from other parallel representations over and over, leading to rich high-resolution representations. As a result, the predicted keypoint heatmap is potentially more accurate and spatially more precise. We empirically demonstrate the effectiveness of our network through the superior pose estimation results over two benchmark datasets: the COCO keypoint detection dataset and the MPII Human Pose dataset. The code and models have been publicly available at \url{https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}.
研究の動機と目的
- 人間の姿勢推定のための信頼性が高く正確な高解像度表現の学習を動機づける。
- 入力から高解像度特徴を回復するのではなく、全段階を通じて高解像度表現を維持するネットワークを設計する。
- 高解像度から低解像度へ並行するサブネットワーク間で反復的な多スケール融合を提案し、高解像度表現を豊かにする。
- COCOとMPIIで優れたキーポイント熱図の精度を示し、PoseTrackで姿勢追跡を改善する。
提案手法
- 高解像度サブネットワークから始まり、徐々に並列の高解像度から低解像度へのサブネットワークを追加するHigh-Resolution Net (HRNet)を提案する。
- 複数解像度のサブネットワークを並列に接続し、段階間および段階内の交換ユニットを介して反復的な多尺度融合を行う。
- 最終的な高解像度表現からK個の熱図を回帰し、ガウス-Groundtruth熱図に対して平均二乗誤差損失を用いる。
- 小さな幅(W32)と大きな幅(W48)で4段階と8つの交換ユニットを持つHRNetを実装する。
- 標準的なデータ拡張、Adamオプティマイザ、ImageNet事前学習済みバックボーンを用いて性能を向上させて訓練する。
実験結果
リサーチクエスチョン
- RQ1従来の高から低へのパイプラインと比較して、ネットワーク全体を通じて高解像度表現を維持することでキーポイント局在精度は向上するか?
- RQ2並列サブネットワーク間での反復的な多スケール融合は、高解像度特徴を豊かにし、より良い熱図につながるか?
- RQ3最新手法と比較した場合のCOCO、MPII、PoseTrackベンチマークにおけるHRNetの性能向上はどの程度か?
- RQ4ネットワークの幅と入力解像度は姿勢推定の精度と効率にどう影響しますか?
- RQ5単一画像の姿勢推定を超えた動画ベースの姿勢追跡にもHRNetは有効か?
主な発見
| 手法 | バックボーン | 入力サイズ | パラメータ数 | GFLOPs | AP | AP50 | AP75 | APM | APL | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| HRNet-W32 | HRNet-W32 | 256x192 | 28.5 M | 7.10 | 73.4 | 89.5 | 80.7 | 70.2 | 80.1 | 78.9 |
| HRNet-W32 | HRNet-W32 | 256x192 | 28.5 M | 7.10 | 74.4 | 90.5 | 81.9 | 70.8 | 81.0 | 79.8 |
| HRNet-W48 | HRNet-W48 | 256x192 | 63.6 M | 14.6 | 75.1 | 90.6 | 82.2 | 71.5 | 81.8 | 80.4 |
| SimpleBaseline | ResNet-152 | 256x192 | 68.6 M | 15.7 | 72.0 | 89.3 | 79.8 | 68.7 | 78.9 | 77.8 |
- HRNet-W32(事前学習なし)は256x192入力でCOCO valのAPが73.4を達成し、同程度のサイズのHourglassよりも優れ、GFLOPsも低い。
- HRNet-W32(事前学習あり)はCOCO valで74.4 AP、AP50 90.5、AP75 81.9、AR 79.8を達成し、事前学習なしのバリアントを上回る。
- HRNet-W48(事前学習あり)はCOCO valで75.1 AP、AP50 90.6、AP75 82.2、AR 80.4を達成し、幅を増やすと精度が向上することを示している。
- COCO test-devでは、HRNet-W32とHRNet-W48がそれぞれ74.9 APと75.5 APを達成(単一モデル、トップダウン手法)。
- MPIIでは、HRNet-W32は92.3 PCKh@0.5を達成し、いくつかの従来手法を上回り最先端と同等の性能を示す。
- PoseTrack 2017では、HRNet-W48が74.9 mAPと57.9 MOTAを達成し、いくつかのベースラインを上回り、強力な動画追跡性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。