QUICK REVIEW

[论文解读] Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation

Wenkang Shan, Zhenhua Liu|arXiv (Cornell University)|Mar 21, 2023

Human Pose and Action Recognition被引用 8

一句话总结

D3DP 一个基于扩散的框架从 2D 关键点输入生成多个 3D 姿态假设，并通过新颖的逐关节再投影聚合方法（JPMA）将它们聚合成单一高质量的 3D 姿态；在公开基准上优于现有的确定性和概率方法。

ABSTRACT

In this paper, a novel Diffusion-based 3D Pose estimation (D3DP) method with Joint-wise reProjection-based Multi-hypothesis Aggregation (JPMA) is proposed for probabilistic 3D human pose estimation. On the one hand, D3DP generates multiple possible 3D pose hypotheses for a single 2D observation. It gradually diffuses the ground truth 3D poses to a random distribution, and learns a denoiser conditioned on 2D keypoints to recover the uncontaminated 3D poses. The proposed D3DP is compatible with existing 3D pose estimators and supports users to balance efficiency and accuracy during inference through two customizable parameters. On the other hand, JPMA is proposed to assemble multiple hypotheses generated by D3DP into a single 3D pose for practical use. It reprojects 3D pose hypotheses to the 2D camera plane, selects the best hypothesis joint-by-joint based on the reprojection errors, and combines the selected joints into the final pose. The proposed JPMA conducts aggregation at the joint level and makes use of the 2D prior information, both of which have been overlooked by previous approaches. Extensive experiments on Human3.6M and MPI-INF-3DHP datasets show that our method outperforms the state-of-the-art deterministic and probabilistic approaches by 1.5% and 8.9%, respectively. Code is available at https://github.com/paTRICK-swk/D3DP.

研究动机与目标

动机：在单目设置中通过引入概率性 3D 人体姿态估计来解决深度模糊问题。
提出一个扩散式 3D 姿态估计框架 D3DP，能够以 2D 关键点为条件生成多种姿态假设。
引入逐关节再投影式多假设聚合（JPMA），将关节级别的假设聚合为一个高质量的单一 3D 姿态。
展示 D3DP 能与现有的 3D 姿态骨干网络兼容，并提供在推理阶段平衡效率与准确性的机制。

提出的方法

扩散式 3D 姿态估计（D3DP）：训练一个以 2D 关键点为条件的去噪器，从扩散的真实姿态中恢复干净的 3D 姿态；使用多步推理生成 H 个姿态假设，并可定制迭代次数 K。
训练遵循 DDPM 式损失：L = || y0 - D(y_t, x, t) ||_2，其中 y_t 是带噪声的真实姿态，t 均匀取自 [0, T]。
推理从高斯噪声中抽取 H 个初始姿态，并通过以 2D 关键点为条件的去噪器进行细化；基于 DDIM 的重采样允许通过 K 步进行迭代细化。
逐关节再投影式多假设聚合（JPMA）：将 3D 姿态假设重投影到已知/估计的相机内参的 2D 平面，计算逐关节的再投影误差以为每个关节选择最佳假设，并组装成最终的 3D 姿态。
JPMA 利用 2D 先验，并在关节层面进行聚合，其上限性能高于基于姿态层面的聚合。
架构：以 MixSTE 作为去噪器的骨干，并通过简单拼接将 2D 关键点与带噪的 3D 姿态融合；采用正弦时间步嵌入。

实验结果

研究问题

RQ1扩散模型是否能够从 2D 关键点有效生成多种合理的 3D 姿态假设，以用于单目 3D 姿态估计？
RQ2通过再投影误差进行关节级聚合，是否能提升最终 3D 姿态的准确性，相较于传统的姿态层面聚合或平均？
RQ3假设数量（H）和迭代次数（K）在实际中的影响如何体现于准确性和效率？
RQ4所提出的 D3DP+JPMA 框架是否与现有的确定性 3D 姿态估计器作为骨干和条件化方案兼容？
RQ5在标准基准（Human3.6M、MPI-INF-3DHP、3DPW）上，通过逐关节聚合可获得哪些提升？

主要发现

D3DP 在 Human3.6M 的单假设设置下对 MPJPE 取得了最先进的结果，并且在使用关节级聚合时优于若干概率性基线。
JPMA 相较于姿态层面聚合，获得了更高的上限性能，能够在逐关节层面结合 2D 再投影误差来选择最佳假设。
增加假设数量（H）和迭代次数（K）在关节级聚合下会带来更好结果，使用最优关节选择（J-best）往往优于最优姿态选择（P-best）。
相较于 MPI-INF-3DHP 的确定性和概率性基线，D3DP 在 MPJPE 上取得显著改进，并在 PCK 与 AUC 分数上具备竞争力。
该方法与现有骨干网络（如 MixSTE）兼容，并通过可控的 H、K 参数在精度与效率之间实现平衡。
代码已在作者的 GitHub 上发布：https://github.com/paTRICK-swk/D3DP。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。