Skip to main content
QUICK REVIEW

[論文レビュー] Synthetic Occlusion Augmentation with Volumetric Heatmaps for the 2018 ECCV PoseTrack Challenge on 3D Human Pose Estimation

István Sárándi, Timm Linder|arXiv (Cornell University)|Sep 13, 2018
Human Pose and Action Recognition参考文献 30被引用数 37
ひとこと要約

本論文は、ボリュメトリックヒートマップとソフトアーグマックスを用いて3次元関節座標を回帰する、完全畳み込み型3次元人体ポーズ推定手法を提示する。合成的オクルージョン拡張(Pascal VOCオブジェクトを用いたもの)が主な正則化手段として機能し、2018年 ECCV PoseTrack チャレンジで優勝を達成。トレーニング時に追加の2次元ポーズデータセットを用いずに、Human3.6Mベンチマーク全体でも最先端性能を上回った。

ABSTRACT

In this paper we present our winning entry at the 2018 ECCV PoseTrack Challenge on 3D human pose estimation. Using a fully-convolutional backbone architecture, we obtain volumetric heatmaps per body joint, which we convert to coordinates using soft-argmax. Absolute person center depth is estimated by a 1D heatmap prediction head. The coordinates are back-projected to 3D camera space, where we minimize the L1 loss. Key to our good results is the training data augmentation with randomly placed occluders from the Pascal VOC dataset. In addition to reaching first place in the Challenge, our method also surpasses the state-of-the-art on the full Human3.6M benchmark among methods that use no additional pose datasets in training. Code for applying synthetic occlusions is availabe at https://github.com/isarandi/synthetic-occlusion.

研究の動機と目的

  • 地上真理のバウンディングボックスやカメラ内部パrameterが与えられない、制約のない単一人物のRGB画像における3次元人体ポーズ推定の課題に対処すること。
  • 特に、いすなどの複雑なオブジェクトを含む実世界の状況におけるオクルージョンに対するロバスト性を向上させること。
  • トレーニング時に追加の2次元ポーズデータセットに依存せずに、全Human3.6Mベンチマークで最先端性能を達成すること。
  • 合成的オクルージョン拡張が3次元ポーズ推定のためのデータ拡張戦略として有効であることを示すこと。

提案手法

  • 各3次元ボディ関節のボリュメトリックヒートマップを予測する完全畳み込み型バックボーンを用い、それをソフトアーグマックスにより3次元座標に変換する。
  • 1次元ヒートマップ予測ヘッドを用いて絶対的な人物中心の奥行きを推定し、カメラ座標系へのバックプロジェクションを可能にする。
  • 訓練画像にPascal VOCオブジェクト(サイズおよびラベルでフィルタリング済み)を確率0.5でランダムに貼り付けることで、合成的オクルージョンを適用する。
  • オクルーダーおよび入力画像に対して、幾何的(スケーリング、回転、フリップ)および外観的(ぼかし、色調)な拡張を適用する。
  • 画像座標とヒートマップ座標を一致させるためにトレーニング中に学習される焦点距離補正係数 $ c $ を用いることで、ハイパーパramータチューニングを回避する。
  • ヒートマップの明示的な監視を一切行わず、カメラ座標系におけるルート相対3次元座標にL1損失を用いたエンドツーエンドのトレーニングを実施する。

実験結果

リサーチクエスチョン

  • RQ1実世界のオクルージョン状況下で、合成的オクルージョン拡張が3次元人体ポーズ推定のロバスト性をどの程度向上させるか?
  • RQ2追加の2次元ポーズデータを用いずに、ボリュメトリックヒートマップ回帰を伴う完全畳み込みアーキテクチャが、2018年 ECCV PoseTrack チャレンジで既存手法を上回る性能を達成できるか?
  • RQ3追加のポーズデータセットを用いずに、オクルージョン拡張が全Human3.6Mベンチマークにおける一般化性能をどの程度向上させるか?
  • RQ4オクルージョン確率 $ p_{\text{occ}} $ の選択がモデル性能および一般化に与える影響はいかほどか?

主な発見

  • 2018年 ECCV PoseTrack チャレンジにおいて、全行動の平均関節位置誤差(MPJPE)が最低となり、追加の2次元ポーズデータセットを用いた他の参加者をすべて上回った。
  • PoseTrack チャレンジのテストセットでは平均MPJPEが45.0 mmを記録し、2番目に良い手法(58.0 mm)および追加データを用いた次善の手法(59.0 mm)を大きく上回った。
  • 全Human3.6MベンチマークではMPJPEが54.2 mmを達成し、トレーニング時に追加の2次元ポーズデータセットを用いなかったすべての先行研究を上回った。
  • アブレーションスタディの結果、$ p_{\text{occ}} = 0.5 $ でのオクルージョン拡張により、拡張なしのベースライン(65.7 mm vs. 54.2 mm)と比較してMPJPEが11.5 mm低減した。
  • オクルーダーを伴う行動(例:Sitting, Sitting Down)において特に顕著な性能向上が見られ、ベースライン比で12.5 mmの改善が得られた。これは、物体によるオクルージョンに対する強いロバスト性を示している。
  • オクルージョン拡張の効果は $ p_{\text{occ}} \approx 70\% $ で飽和し、さらなる増加は僅かな改善しかもたらさないことが示された。これは、中程度の拡張率で最適なデータ効率が達成されることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。