QUICK REVIEW

[论文解读] 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous Image Data

Benjamin Biggs, Sébastien Ehrhadt|arXiv (Cornell University)|Nov 2, 2020

Human Pose and Action Recognition参考文献 45被引用 29

一句话总结

该论文提出了一种多假设深度学习框架，能够从模糊、单视角或遮挡的图像中生成多个合理的3D人体网格。通过结合最佳M项损失（best-of-M loss）、假设重投影损失（hypothesis reprojection loss）以及基于归一化流（normalizing flow）的量化策略，该方法提升了预测结果的几何一致性与合理性，在H36M、其模糊变体以及3DPW数据集上，无论在多假设还是单假设设置下，均优于当前最先进（SOTA）的基线方法。

ABSTRACT

We consider the problem of obtaining dense 3D reconstructions of humans from single and partially occluded views. In such cases, the visual evidence is usually insufficient to identify a 3D reconstruction uniquely, so we aim at recovering several plausible reconstructions compatible with the input data. We suggest that ambiguities can be modelled more effectively by parametrizing the possible body shapes and poses via a suitable 3D model, such as SMPL for humans. We propose to learn a multi-hypothesis neural network regressor using a best-of-M loss, where each of the M hypotheses is constrained to lie on a manifold of plausible human poses by means of a generative model. We show that our method outperforms alternative approaches in ambiguous pose recovery on standard benchmarks for 3D humans, and in heavily occluded versions of these benchmarks.

研究动机与目标

解决从单视角或严重遮挡图像中重建合理3D人体网格的挑战，此类图像中视觉证据不足以实现唯一重建。
通过确保几何一致性与合理性，提升单目3D人体姿态估计中多假设输出的质量与多样性。
通过引入假设重投影损失与灵活的n-量化输出，克服标准最佳M训练方法的局限性，如梯度稀疏性与无信息量假设。
通过归一化流动态先验，实现对任意n < M个假设的动态采样，同时保持高合理性。

提出的方法

该方法使用多假设神经网络回归器，采用最佳M项损失进行训练，反向传播时仅使用M个假设中的最佳一项计算损失。
提出一种新颖的假设重投影损失，强制所有M个预测的3D网格在输入图像的2D关键点标注上保持一致的投影，从而提升几何一致性。
采用归一化流模型对假设进行筛选与重加权，确保仅保留并优先输出合理姿态。
提出一种新的n-量化最佳M策略，通过量化潜在空间，使模型能够输出任意数量n < M的假设，从而增强灵活性与适用性。
模型在标准数据集（H36M、MPI-INF-3DHP、LSP、MPII、COCO）上端到端训练，采用SMPL作为3D人体模型，并使用关键点监督。
归一化流用于建模合理人体姿态的后验分布，使网络能够学习到更准确且多样的重建结果。

实验结果

研究问题

RQ1深度学习模型能否从单张模糊或遮挡图像中生成一组多个合理的3D人体网格重建？
RQ2如何改进最佳M训练范式，以避免退化或不合理的假设，同时保持梯度流动？
RQ3假设重投影损失是否能有效强制所有预测假设之间的几何一致性，而不仅限于最佳假设？
RQ4归一化流能否用于提升3D人体网格重建中多假设输出的合理性与多样性？
RQ5所提出的n-量化最佳M框架是否允许灵活、面向应用的n < M个假设采样，同时保持高性能？

主要发现

所提方法在H36M、其模糊变体及3DPW上的所有指标上均优于SMPL-CVAE与SMPL-MDN，证明其在建模模糊性方面具有优越性能。
尽管未显式优化单假设输出，该方法在标准单网格MPJPE指标上仍达到SOTA性能。
消融实验表明，若移除假设重投影损失或归一化流组件，性能将显著下降，验证了其设计贡献的有效性。
该方法降低了模型在模糊情况下回归至平均姿态（如双腿朝下）的倾向，生成了更多样化且合理的重建结果。
n-量化最佳M策略实现了对n < M个假设的灵活采样，且在不同n值下性能稳定，提升了实际应用中的可用性。
模型在未见数据上泛化能力良好，如在未参与训练的3DPW数据集上表现强劲，表明其学习到了有效的先验知识。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。