[論文レビュー] How Robust is 3D Human Pose Estimation to Occlusion?
この論文は、単一のRGB画像からの3D人間姿勢推定におけるテスト時の遮蔽効果を体系的に検討し、最先端モデルは遮蔽に対して脆弱であるが、訓練時の遮蔽データ拡張が頑健性を向上させ、非遮蔽時の性能も向上することを示している。
Occlusion is commonplace in realistic human-robot shared environments, yet its effects are not considered in standard 3D human pose estimation benchmarks. This leaves the question open: how robust are state-of-the-art 3D pose estimation methods against partial occlusions? We study several types of synthetic occlusions over the Human3.6M dataset and find a method with state-of-the-art benchmark performance to be sensitive even to low amounts of occlusion. Addressing this issue is key to progress in applications such as collaborative and service robotics. We take a first step in this direction by improving occlusion-robustness through training data augmentation with synthetic occlusions. This also turns out to be an effective regularizer that is beneficial even for non-occluded test cases.
研究の動機と目的
- Human3.6M に対する合成遮蔽が3D姿勢推定精度に与える影響を評価する。
- さまざまな遮蔽タイプと程度の下でベースライン最先端手法を評価する。
- 遮蔽に対する頑健性を向上させる手段として訓練時の遮蔽拡張を調査する。
提案手法
- ResNet-50 バックボーンを用いた完全畳み込みネットワークを用いて体積的ジョイントヒートマップを予測する。
- 体積ヒートマップ上のソフトアーグマックスによって3Dジョイント座標を予測し、カメラ空間へバックプロジェクションする。
- ルート深度の増補なし、および比較のためのオラクルルート深度オプションを用いたMPJPE(平均ジョイント位置誤差)を評価する。
- テスト時に円形・長方形・棒状・VOCオブジェクトなどの合成遮蔽を導入して遮蔽シナリオを模擬する。
- いくつかの方式(単一長方形、複数形状、VOCオブジェクトパッチ、混合戦略)を用いた遮蔽拡張で訓練する。
- 頑健性と正則化効果を評価し、Titan X GPUでの実行時性能を報告する。
実験結果
リサーチクエスチョン
- RQ1テスト時の合成遮蔽がHuman3.6Mにおける最先端3D姿勢推定法のMPJPEにどのように影響するか?
- RQ2どの遮蔽タイプが姿勢推定の最も大きな劣化を引き起こすか?
- RQ3訓練時の遮蔽対応データ拡張は、さまざまな遮蔽体タイプに対する遮蔽耐性を改善できるか?
- RQ4遮蔽拡張は非遮蔽のテスト画像の性能も改善するか?
- RQ5高フレームレートアプリケーションに対する提案手法の実行時の実現性はどの程度か?
主な発見
| Direct | Discuss | Eat | Greet | Phone | Photo | Pose | Purch. | Sit | SitD | Smoke | Wait | Walk | WalkD | WalkT | Avg | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pavlakos [18] | 67.4 | 72.0 | 66.7 | 69.1 | 72.0 | 77.0 | 65.0 | 68.3 | 83.7 | 96.5 | 71.7 | 65.8 | 59.1 | 74.9 | 63.2 | 71.9 |
| Pavlakos [18] (known root depth) | 59.3 | 64.9 | 59.4 | 61.3 | 65.1 | 69.0 | 57.1 | 60.1 | 75.1 | 91.9 | 64.5 | 59.6 | 66.8 | 53.7 | 56.8 | 64.8 |
| Ours (no occlusion augm.) | 60.2 | 64.1 | 55.9 | 58.3 | 63.8 | 69.5 | 58.8 | 64.4 | 67.7 | 90.8 | 61.9 | 59.2 | 66.0 | 56.9 | 50.8 | 63.3 |
| w/ circles augm. | 52.9 | 58.0 | 51.8 | 54.8 | 56.9 | 62.6 | 51.4 | 55.0 | 64.7 | 79.2 | 56.3 | 52.5 | 58.8 | 47.9 | 43.0 | 56.8 |
| w/ single rectangle augm. [26] | 52.0 | 58.6 | 51.0 | 53.5 | 56.1 | 62.6 | 51.5 | 54.2 | 65.7 | 71.2 | 56.1 | 52.9 | 58.2 | 47.8 | 42.9 | 56.1 |
| w/ rectangles augm. | 51.9 | 57.9 | 52.5 | 54.2 | 57.3 | 61.9 | 51.7 | 55.2 | 63.4 | 76.7 | 56.5 | 51.7 | 58.8 | 47.8 | 43.4 | 56.5 |
| w/ bars augm. | 55.0 | 60.1 | 54.1 | 56.4 | 59.9 | 64.9 | 52.4 | 59.5 | 67.7 | 88.7 | 58.5 | 54.2 | 62.4 | 50.0 | 45.4 | 59.6 |
| w/ VOC objects augm. | 51.2 | 58.7 | 51.7 | 53.4 | 56.8 | 59.3 | 50.7 | 52.6 | 65.5 | 73.2 | 56.8 | 51.4 | 56.6 | 47.0 | 42.4 | 55.8 |
| w/ mixture augm. | 51.3 | 57.8 | 52.5 | 53.8 | 55.9 | 58.7 | 50.9 | 52.8 | 66.7 | 77.1 | 56.6 | 51.7 | 56.6 | 47.6 | 42.8 | 56.1 |
- ベースライン3D姿勢推定器は、非遮蔽テスト条件下でHuman3.6Mにおいて最先端のMPJPEを達成(63.3 mm、同等手法で報告された64.8 mmより良い) 。
- 円形遮蔽が、テストされた遮蔽形状の中で最も誤差を増加させる。
- 長方形は円より問題が少なく、VOCオブジェクトの遮蔽物は遮蔽タイプを超えて頑健性を一般化する。
- 遮蔽拡張戦略(特にVOCオブジェクト拡張と混合戦略)は、全ての tested types の遮蔽下でMPJPEを低減する。
- 遮蔽拡張は非遮蔽のテストデータの性能も向上させる(正則化効果)。
- 結合された遮蔽拡張戦略は、検証された遮蔽タイプ全体で頑健な改善をもたらし、推論速度を維持(バッチサイズ64で最大204fps)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。