Skip to main content
QUICK REVIEW

[論文レビュー] Cascaded Pyramid Network for Multi-Person Pose Estimation

Yilun Chen, Zhicheng Wang|arXiv (Cornell University)|Nov 20, 2017
Human Pose and Action Recognition参考文献 7被引用数 127
ひとこと要約

この論文は Cascaded Pyramid Network (CPN) を GlobalNet と RefineNet で提案し、多人数姿勢推定における難所キーポイントを扱い、COCO minival で 69.4 AP、COCO test-dev で 72.1 AP (当時の最先端) を達成。

ABSTRACT

The topic of multi-person pose estimation has been largely improved recently, especially with the development of convolutional neural network. However, there still exist a lot of challenging cases, such as occluded keypoints, invisible keypoints and complex background, which cannot be well addressed. In this paper, we present a novel network structure called Cascaded Pyramid Network (CPN) which targets to relieve the problem from these "hard" keypoints. More specifically, our algorithm includes two stages: GlobalNet and RefineNet. GlobalNet is a feature pyramid network which can successfully localize the "simple" keypoints like eyes and hands but may fail to precisely recognize the occluded or invisible keypoints. Our RefineNet tries explicitly handling the "hard" keypoints by integrating all levels of feature representations from the GlobalNet together with an online hard keypoint mining loss. In general, to address the multi-person pose estimation problem, a top-down pipeline is adopted to first generate a set of human bounding boxes based on a detector, followed by our CPN for keypoint localization in each human bounding box. Based on the proposed algorithm, we achieve state-of-art results on the COCO keypoint benchmark, with average precision at 73.0 on the COCO test-dev dataset and 72.1 on the COCO test-challenge dataset, which is a 19% relative improvement compared with 60.5 from the COCO 2016 keypoint challenge.Code (https://github.com/chenyilun95/tf-cpn.git) and the detection results are publicly available for further research.

研究の動機と目的

  • 多人数姿勢推定における難しい(遮蔽済み/不可視)キーポイントの局在化を改良する動機付け。
  • ロバストなキーポイントヒートマップのためにピラミッド特徴を統合する階層型アーキテクチャを提案する。
  • 難しい関節に学習を集中させるためのオンラインハードキーポイントマイニングを導入する。
  • 性能に対する検出器の選択、データ前処理、入力クロップ戦略の影響を評価する。

提案手法

  • GlobalNet と RefineNet からなる Cascaded Pyramid Network (CPN) を導入する。
  • GlobalNet は高い空間解像度と豊富な文脈を持つ特徴ピラミッド構造を用いて、容易なキーポイントを局在化する。
  • RefineNet はピラミッド特徴を連結し、オンラインハードキーポイントマイニングを適用して難しいキーポイントに焦点を当てる。
  • GlobalNet には L2 ロス、RefineNet にはオンラインハードキーポイントマイニングロスで訓練する。
  • トップダウン型パイプラインを採用する:検出器ベースの人ボックスに続いて各ボックスのキーポイント局在を CPN で行う。

実験結果

リサーチクエスチョン

  • RQ1層状ピラミッドアプローチは、多人数姿勢推定における遮蔽または不可視のキーポイントの局在化を改善できるか?
  • RQ2RefineNet における多層ピラミッド特徴の統合は、過度な計算なしに難しいキーポイントの精度を向上させるか?
  • RQ3オンラインハードキーポイントマイニングが姿勢推定の精度に与える影響は何か?
  • RQ4検出器の品質とデータ前処理は COCO での最終的なキーポイント AP にどのような影響を与えるか?

主な発見

  • GlobalNetとRefineNetを搭載したCPNは、ResNet-50 backbone で COCO minival において 69.4 AP (OKS) を達成。
  • オンラインハードキーポイントマイニングを備えた RefineNet は、ベースラインの GlobalNet より約 0.8 AP の性能向上を提供。
  • 入力クロップサイズと多層特徴融合は性能に大きく影響し、より大きなクロップと複数のピラミッドレベルの使用がより高い AP を生み出す。
  • COCO test-dev では、単一の CPN モデルが 72.1 AP を達成し、アンサンブル (CPN+) は COCO 以外の追加データなしで 73.0 AP に到達。
  • 本手法は当時の COCO 多人数キーポイントにおいて最先端の結果を設定し、2016年の優勝者を著しい相対的マージンで上回っている。
  • Soft-NMS と高度な検出器の variants がキーポイント検出性能をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。