QUICK REVIEW

[論文レビュー] Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

Zhongwei Qiu, Qiansheng Yang|arXiv (Cornell University)|Jun 29, 2023

Human Pose and Action Recognition被引用数 8

ひとこと要約

DiffusionPoseはノイズ化されたヒートマップからヒートマップを推定する拡散モデルを用い、画像構造に導かれて2D人体姿勢推定を行うことでCOCO、CrowdPose、AI ChallengeでAPを改善します。

ABSTRACT

One of the mainstream schemes for 2D human pose estimation (HPE) is learning keypoints heatmaps by a neural network. Existing methods typically improve the quality of heatmaps by customized architectures, such as high-resolution representation and vision Transformers. In this paper, we propose \textbf{DiffusionPose}, a new scheme that formulates 2D HPE as a keypoints heatmaps generation problem from noised heatmaps. During training, the keypoints are diffused to random distribution by adding noises and the diffusion model learns to recover ground-truth heatmaps from noised heatmaps with respect to conditions constructed by image feature. During inference, the diffusion model generates heatmaps from initialized heatmaps in a progressive denoising way. Moreover, we further explore improving the performance of DiffusionPose with conditions from human structural information. Extensive experiments show the prowess of our DiffusionPose, with improvements of 1.6, 1.2, and 1.2 mAP on widely-used COCO, CrowdPose, and AI Challenge datasets, respectively.

研究の動機と目的

拡散モデルを用いてアーキテクチャ設計の改良を超えて2D HPEヒートマップ品質を改善する動機づけ。
ノイズのあるヒートマップから生成的なヒートマップ復元タスクとして2D姿勢推定を定式化。
人間の構造情報を条件として組み込み、拡散ベースのヒートマップ回復を導く。
COCO、CrowdPose、AI Challengeデータセットで効果を実証。

提案手法

画像特徴で条件付けられたヒートマップのデノイズを行う拡散プロセスとして2D HPEを定式化。
正解のキーpointsをノイズのあるヒートマップとマスクへ撹乱する前方拡散プロセスを用いる。
エンコーダを介して画像特徴と構造的手掛かりを抽出し、キーpoints/スケルトンのマスキングを用いて条件x^cを形成。
構造ガイド付き拡散デコーダ（SGDD）とクロスアテンションベースのSC-CAモジュールを用いてヒートマップを回復。
量子化誤差を低減するために高解像度ヒートマップでの動作を任意に実行可能、ヒートマップに対してL2損失で訓練。
推論時には初期化されたヒートマップから開始し、DDIMインスパiredステップによる段階的デノイズを実行。

実験結果

リサーチクエスチョン

RQ1拡散モデルは discriminative ベースラインと比較して2D HPEの高品質ヒートマップを生成できるか。
RQ2構造情報を明示的に条件付けとして取り入れると姿勢推定性能は改善されるか。
RQ3ヒートマップ解像度と拡散ハイパーパラメータは精度と計算コストにどう影響するか。

主な発見

DiffusionPoseはCOCOでAPを1.6ポイント、CrowdPoseで1.2ポイント、AI Challengeで1.2ポイントそれぞれ改善。
SC-CAによる構造ガイド付き条件付けと骨格/キーポイントマスクの導入は、画像特徴のみを用いた場合よりAPを向上。
より高解像度のSGDD（例: 128x96 ヒートマップ）は性能を改善する一方でFLOPsのトレードオフが生じる。
拡散の初期化を良好に行い1ステップ推論を用いると計算コストを抑えつつ強力なAPを達成。
DiffusionPoseはHRNet系など複数のバックボーンでCOCO、CrowdPose、AI Challengeデータセットにおいて競争力ある、または最先端の結果を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。