Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

Zhengxiong Luo, Zhicheng Wang|arXiv (Cornell University)|Dec 30, 2020
Human Pose and Action Recognition参考文献 35被引用数 23
ひとこと要約

本稿では、スケールおよび不確実性に基づいてキーポoin監視のためのガウスカーネル標準偏差を動的に調整することで、ボトムアップ人体ポーズ推定を向上させるため、スケール適応型ヒートマップ回帰(SAHR)と重み適応型ヒートマップ回帰(WAHR)を提案する。SAHRはスケールマップヘッドを介してキーポイントごとの標準偏差を学習する。一方、WAHRは損失の再重み付けによって前景・背景クラスのアンバランスを軽減する。本手法は、COCO test-dev2017で72.0 APを達成し、最先端手法を+1.5 AP上回る性能を発揮した。

ABSTRACT

Heatmap regression has become the most prevalent choice for nowadays human pose estimation methods. The ground-truth heatmaps are usually constructed via covering all skeletal keypoints by 2D gaussian kernels. The standard deviations of these kernels are fixed. However, for bottom-up methods, which need to handle a large variance of human scales and labeling ambiguities, the current practice seems unreasonable. To better cope with these problems, we propose the scale-adaptive heatmap regression (SAHR) method, which can adaptively adjust the standard deviation for each keypoint. In this way, SAHR is more tolerant of various human scales and labeling ambiguities. However, SAHR may aggravate the imbalance between fore-background samples, which potentially hurts the improvement of SAHR. Thus, we further introduce the weight-adaptive heatmap regression (WAHR) to help balance the fore-background samples. Extensive experiments show that SAHR together with WAHR largely improves the accuracy of bottom-up human pose estimation. As a result, we finally outperform the state-of-the-art model by +1.5AP and achieve 72.0AP on COCO test-dev2017, which is com-arable with the performances of most top-down methods. Source codes are available at https://github.com/greatlog/SWAHR-HumanPose.

研究の動機と目的

  • 固定標準偏差を用いたヒートマップ回帰の限界、特にスケール変動およびラベルの曖昧さに対処するため。
  • 人間のスケールおよび不確実性に基づいて、キーポイントごとに適応的にガウスカーネル標準偏差を調整する手法を提案し、耐性を向上させること。
  • 適応的回帰によって引き起こされる前景・背景サンプルのアンバランスを軽減し、モデルの収束および性能に悪影響を及えるのを防ぐこと。
  • 人体検出やマルチスケールテストに依存せずに、ボトムアップポーズ推定で最先端の性能を達成すること。

提案手法

  • キーポイントごとの標準偏差乗数を予測するスケールマップヘッドを導入し、ヒートマップ監視におけるガウスカーネルの広がりを適応的に調整可能にする。
  • 真のヒートマップの構築を変更し、ベース標準偏差σ₀を予測されたスケールマップsでスケーリングすることで、各キーポイントに対してσ = σ₀ · sとする。
  • キーポイントごとに学習可能な空間的に変化する標準偏差を導入し、意味的特徴領域およびラベルの不確実性のより良いモデリングを可能にする。
  • ファーカス損失にインspiredされた、学習可能な重み適応型損失機構を導入し、容易な(背景)サンプルを軽減し、困難な(前景)サンプルに注目して訓練を促進する。
  • SAHRとWAHRを統合的な訓練目的に組み合わせ、マルチペルソンおよびスケール変動が激しい状況での一般化性と正確性を向上させる。
  • 標準バックボーン(例:HrHRNet-W48)にスケールマップヘッドおよび重みマップヘッドを追加し、適応したヒートマップ上でL2損失を用いてエンドツーエンドで訓練する。
Figure 1: Top row: the noses of different persons are covered by gaussian kernels with the same standard deviation. Bottom row: the standard deviations for keypoints of different persons are adaptively adjusted in SAHR.
Figure 1: Top row: the noses of different persons are covered by gaussian kernels with the same standard deviation. Bottom row: the standard deviations for keypoints of different persons are adaptively adjusted in SAHR.

実験結果

リサーチクエスチョン

  • RQ1ヒートマップ回帰における適応的標準偏差は、大規模なスケール変動下でのボトムアップ人体ポーズ推定の性能向上に寄与するか?
  • RQ2可変なガウスカーネル広がりによるキーポイントの不確実性モデリングは、局所化精度および耐性にどのように影響するか?
  • RQ3適応的標準偏差の導入は、ヒートマップ監視における前景・背景クラスのアンバランスを悪化させるか?
  • RQ4学習可能な適応的重み付け方式は、このアンバランス問題を緩和し、さらにモデル性能を向上させることができるか?
  • RQ5SAHRとWAHRを組み合わせることで、特に混雑したシーンにおいて、どの程度最先端の性能を達成できるか?

主な発見

  • 提案されたSAHR手法は、COCO test-dev2017においてベースラインのHrHRNet-W48を+1.5 AP上回り、72.0 APを達成した。
  • より困難なCrowdPoseデータセットでは、マルチスケールテストなしで71.6 AP、マルチスケールテストありで73.8 APを達成し、混雑したシーンにおけるトップダウン手法を上回った。
  • アブレーションスタディにより、適応的標準偏差が大規模な人物に対して顕著に性能を向上させることを確認し、大インスタンスのAPが66.6から75.1に上昇した。
  • 重み適応型損失(WAHR)は、容易な背景サンプルの影響を効果的に低減し、特に混雑したシナリオにおいて困難なサンプルの性能向上を実現した。
  • 本手法は、遮蔽や検出エラーによりトップダウン手法が失敗する混雑したシーンでも優れた一般化性能を示し、HrHRNet-W48 + SWAHRによるボトムアップ手法が最先端の結果を達成した。
Figure 2: During training, the ground-truth heatmaps are firstly scaled according to predicted scale maps and then are used to supervise the whole model via weight-adaptive loss. During testing, the predicted heatmaps and associative embeddings are used for grouping of individual persons.
Figure 2: During training, the ground-truth heatmaps are firstly scaled according to predicted scale maps and then are used to supervise the whole model via weight-adaptive loss. During testing, the predicted heatmaps and associative embeddings are used for grouping of individual persons.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。