QUICK REVIEW
[論文レビュー] Simple Baselines for Human Pose Estimation and Tracking
Bin Xiao, Haiping Wu|arXiv (Cornell University)|Apr 17, 2018
Human Pose and Action Recognition参考文献 23被引用数 118
ひとこと要約
本論文は、動画における単一フレームの人間ポーズ推定と複数人ポーズ追跡のための、シンプルで強力なベースラインを提示し、軽量なデコンボリューションヘッドとフローに基づく追跡を用いて最先端の成果を達成している。
ABSTRACT
There has been significant progress on pose estimation and increasing interests on pose tracking in recent years. At the same time, the overall algorithm and system complexity increases as well, making the algorithm analysis and comparison more difficult. This work provides simple and effective baseline methods. They are helpful for inspiring and evaluating new ideas for the field. State-of-the-art results are achieved on challenging benchmarks. The code will be available at https://github.com/leoxiaobin/pose.pytorch.
研究の動機と目的
- シンプルなヘッド設計とデコンボリューションがマルチ人ポーズ推定のための競争力のあるヒートマップを生み出せるかを検討する。
- 光学フローを用いたジョイント伝搬とフローに基づく類似性を用いたデータ同定を伴う実用的な追跡パイプラインを開発する。
- COCOで単一フレームのポーズ推定を、PoseTrackで動画ベースのポーズ推定と追跡を評価する。
- ヒートマップ解像度、バックボーンの深さ、入力サイズ、フロー系コンポーネントの影響を理解するための ablations を提供する。
提案手法
- ResNet バックボーンの上に小さなデコンボリューション層のスタックを追加して、深部特徴をヒートマップに変換し、キーポイント予測を行う。
- predicted と Gaussian-smoothed ground-truth heatmaps の間の MSE ロスで学習する。
- 追跡のため、前のフレームからジョイントを光学フローを用いて伝搬させ、候補ボックスを生成し、伝搬ジョイントと現在のジョイントとの間のフロー基づくポーズ類似度(OKS)を計算する。
- 検出器ボックスと伝搬ボックスを NMS で統合し、統合ボックスごとに姿勢を推定し、フロー基準の類似度行列を用いた貪欲な ID 割り当てを実施する。
- オクルージョンや短時間の消失を跨いでリンクするため、マルチフレームのフロー基準類似度を用いた追跡を拡張する。
- past フレームの短い履歴キューを保持して M_sim を計算し、ID を割り当てるオンライン推論アルゴリズムを提供する。
実験結果
リサーチクエスチョン
- RQ1単純なデコンボリューションヘッドを ResNet バックボーンの上に置くだけで、複雑なマルチステージアーキテクチャなしに COCO のポーズ推定精度をどこまで引き上げられるか?
- RQ2光学フローを用いたジョイント伝搬とフロー基づくポーズ類似性は、より複雑なパイプラインに依存する最先端手法と比較してビデオで競争力のあるポーズ追跡を生み出せるか?
- RQ3バックボーンの深さ、入力解像度、デコンボリューションカーネルの選択がポーズ推定性能にどのような影響を与えるか?
- RQ4ジョイント伝搬を検出ボックスと統合することは、難易度の高いビデオシナリオで検出と追跡の堅牢性を向上させるか?
- RQ5Flow-based multi-frame 類似度は PoseTrack の Tracking-By-Detection の性能にどのような影響を与えるか?
主な発見
| Method | Backbone | Input Size | AP | AP50 | AP75 | APm | APl | AR |
|---|---|---|---|---|---|---|---|---|
| CMU-Pose | - | - | 61.8 | 84.9 | 67.5 | 57.1 | 68.2 | 66.5 |
| Mask-RCNN | ResNet-50-FPN | - | 63.1 | 87.3 | 68.7 | 57.8 | 71.4 | - |
| G-RMI [24] | ResNet-101 | 353×257 | 64.9 | 85.5 | 71.3 | 62.3 | 70.0 | 69.7 |
| CPN [6] | ResNet-Inception | 384×288 | 72.1 | 91.4 | 80.0 | 68.7 | 77.2 | 78.5 |
| FAIR* [9] | ResNeXt-101-FPN | - | 69.2 | 90.4 | 77.0 | 64.9 | 76.3 | 75.2 |
| G-RMI* [9] | ResNet-152 | 353×257 | 71.0 | 87.9 | 77.7 | 69.0 | 75.2 | 75.8 |
| oks* [9] | - | - | 72.0 | 90.3 | 79.7 | 67.6 | 78.4 | 77.1 |
| bangbangren* + [9] | ResNet-101 | - | 72.8 | 89.4 | 79.6 | 68.6 | 80.0 | 78.7 |
| CPN + [6,9] | ResNet-Inception | 384×288 | 73.0 | 91.7 | 80.9 | 69.5 | 78.1 | 79.0 |
| Ours | ResNet-152 | 384×288 | 73.7 | 91.9 | 81.1 | 70.3 | 80.0 | 79.0 |
- COCO の test-dev で、著者らの単一モデルベースラインは 73.7 AP を達成し、既存の単一モデルおよびアンサンブルの結果を上回ることがある。
- フロー基準の追跡拡張は PoseTrack で新しい最先端を達成し、MOTA 57.8(ResNet-152, 384×288)および 74.6 の mAP をマルチ人ポーズ追跡のリーダーボードエントリで示す。
- アブレーションはヒートマップ解像度と大きい入力サイズが AP を向上させることを示し、深いバックボーン(例:ResNet-152)が性能を改善する。
- 光学フローからのジョイント伝搬は、特に弱い検出器(R-FCNおよび FPN-DCN)とバックボーンの両方で、mAP と MOTA の両方を大幅に改善する。
- フロー基準のポーズ類似度(マルチフレームを含む)は、特に高速移動や遮蔽状況下で、境界ボックスやポーズベースの類似度よりも優れている。
- 提案されたベースラインは PoseTrack の検証・テストセットで従来のいくつかの方法よりも優れており、シンプルな設計で実用的な性能を強く示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。