Skip to main content
QUICK REVIEW

[論文レビュー] OriNet: A Fully Convolutional Network for 3D Human Pose Estimation

Chenxu Luo, Xiao Chu|arXiv (Cornell University)|Nov 12, 2018
Human Pose and Action Recognition参考文献 18被引用数 45
ひとこと要約

OriNetは、肢の向きを肢領域に結び付けてモデル化することで単一画像から3D人体ポーズを予測する完全畳み込みアプローチを提示し、境界ボックスの誤差に対する一般化性能と頑健性を高めつつ、2Dキーポイントを共同で予測します。

ABSTRACT

In this paper, we propose a fully convolutional network for 3D human pose estimation from monocular images. We use limb orientations as a new way to represent 3D poses and bind the orientation together with the bounding box of each limb region to better associate images and predictions. The 3D orientations are modeled jointly with 2D keypoint detections. Without additional constraints, this simple method can achieve good results on several large-scale benchmarks. Further experiments show that our method can generalize well to novel scenes and is robust to inaccurate bounding boxes.

研究の動機と目的

  • 単一のRGB画像から厳密なトリミングや固定スケール要件なしに、頑健な3Dポーズ推定を動機づける。
  • 肢の向きベースの新しい表現を提案し、ポーズと骨長さをデカップリングして一般化を改善する。
  • 完全畳み込みフレームワーク内で肢の向きと2Dキーポイント検出を同時にモデリングする。
  • 標準ベンチマークでの Bounding Box 誤差に対する頑健性を示し、競争力あるまたは最先端の結果を示す。

提案手法

  • 各肢を端点2点から派生した単位方向ベクトルとして表現する。
  • 骨領域の周囲にある境界ボックスを介して肢の領域に向きを結び付け、画像との空間的関連を保持する。
  • 肢ごとに向きマップを用意し、肢領域を向きベクトルで埋め、背景をゼロとする。損失は L_o = sum_k ||O_k - Ō_k||^2 で訓練する。
  • 2Dキーポイントのヒートマップを向きマップと並行して予測し、学習にはシグモイド交差エントロピー損失 L_p を用い、 L = L_o + λ L_p とし λ = 0.2 とする。
  • スタック型の hourglass バックボーン(5-stack)を採用し、スタックごとに予測を出力する。画像特徴、キーポイントヒートマップ、向きの手掛かりをスタック間で融合して予測を refine する。
  • 推論時:ヒートマップから2Dキーポイントを抽出し、向きマップ上の肢領域を切り出して各領域内の向きを平均化し、肢の向きと肢長比およびスケールを用いて3Dポーズを復元する。

実験結果

リサーチクエスチョン

  • RQ1単一のモノクロ画像から肢の向きが肢領域に結び付けられた場合、頑健な3Dポーズ推定を実現できるか。
  • RQ2肢の向きと2Dキーポイント検出を完全畳み込みパイプラインと組み合わせることで、一般化と Bounding Box 誤差に対する頑健性が改善されるか。
  • RQ3FCN アーキテクチャにおいて向きベースの予測は、直接の骨長さやジョイント座標回帰と比較してどのように評価されるか。
  • RQ4OriNet のデータセット横断および新規シーンでの一般化性能はどの程度か。

主な発見

  • 向きベースの表現はスケール不変で、データセット間および新規シーンでの一般化を改善する。
  • 肢の向きと肢領域の境界ボックスを結合することで空間的関連を保持し、ポーズ推論を改善する。
  • 方法は Human3.6M および MPI-INF-3DHP データセットで競争力のあるまたは最先端の結果を達成し、境界ボックスのゆらぎに対して頑健である。
  • 背景に対する頑健性があり、被写体の厳密な切り抜き依存が低減される。
  • アブレーション実験では、向きを用いる方が単一スタックおよび複数スタックの両方の設定で骨長表現よりも優れている。
  • Titan XP で 20fps で推定可能で、実用的な効率性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。