QUICK REVIEW

[论文解读] DenseBody: Directly Regressing Dense 3D Human Pose and Shape From a Single Color Image

Pengfei Yao, Zheng Fang|arXiv (Cornell University)|Mar 25, 2019

Human Pose and Action Recognition参考文献 48被引用 30

一句话总结

DenseBody 提出了一种端到端的深度学习框架，通过一种新颖的UV位置图表示法，直接从单张RGB图像回归出密集的3D人体网格。通过训练编码器-解码器CNN来预测该3D表示，且无需中间监督，该方法在Human3.6M、SURREAL和UP-3D数据集上实现了最先进性能，推理速度高达200 FPS。

ABSTRACT

Recovering 3D human body shape and pose from 2D images is a challenging task due to high complexity and flexibility of human body, and relatively less 3D labeled data. Previous methods addressing these issues typically rely on predicting intermediate results such as body part segmentation, 2D/3D joints, silhouette mask to decompose the problem into multiple sub-tasks in order to utilize more 2D labels. Most previous works incorporated parametric body shape model in their methods and predict parameters in low-dimensional space to represent human body. In this paper, we propose to directly regress the 3D human mesh from a single color image using Convolutional Neural Network(CNN). We use an efficient representation of 3D human shape and pose which can be predicted through an encoder-decoder neural network. The proposed method achieves state-of-the-art performance on several 3D human body datasets including Human3.6M, SURREAL and UP-3D with even faster running speed.

研究动机与目标

为解决在有限3D监督下从单张RGB图像进行3D人体重建的挑战。
消除对2D关键点、分割或轮廓等中间表示的依赖，这些表示会限制性能并增加复杂性。
开发一种高效、端到端的框架，直接将图像映射到密集的3D网格几何结构。
与现有最先进方法相比，实现更高的准确率和推理速度。
展示基于UV的3D表示在单阶段训练范式中直接进行3D网格回归的有效性。

提出的方法

提出一种新颖的3D表示方法，利用UV位置图编码密集的3D人体网格几何结构，实现从RGB图像的直接回归。
采用编码器-解码器CNN架构，其中编码器处理输入图像，解码器重建3D网格的UV图。
使用单阶段训练流程，直接优化UV图预测，无需中间监督或多阶段精炼。
在UV图上应用加权L1损失，结合部位和关节级别的加权，以提高定位精度并处理几何复杂性。
引入总变差（TV）损失，以促进预测UV图的平滑性并减少噪声。
通过UV图表示隐式利用SMPL参数化人体模型，实现在无需显式预测SMPL参数的情况下一致生成3D网格。

实验结果

研究问题

RQ1能否在无需中间2D监督信号的情况下，实现从单张RGB图像直接、端到端地回归3D人体网格？
RQ2基于UV的3D表示是否相比传统的SMPL参数化或体素输出，能实现更准确、更高效的3D网格预测？
RQ3单阶段训练框架能否超越依赖中间2D监督（如关键点热力图或分割）的多阶段方法？
RQ4在标准3D人体重建基准上，该方法与最先进方法相比，在准确率和速度方面表现如何？
RQ5不同网络架构和损失函数对最终3D重建质量的影响是什么？

主要发现

在SURREAL数据集上，DenseBody实现了最先进性能，相比之前方法将表面误差降低31.5%，关节误差降低13.0%。
在Human3.6M数据集上，该方法在不使用额外训练数据的情况下，实现了所有方法中最佳的MPJPE（3D关节误差），且在使用额外数据时与最佳性能方法相当。
在UP-3D数据集上，该方法优于所有先前的最先进方法，表面误差更低（91.7 mm），关节误差更低（71.4 mm）。
该方法在单张GPU上运行速度达200 FPS，显著快于先前方法，如HMR（1270 ms）、NBF（169 ms）和Bodynet（1810 ms）。
消融实验表明，结合部位和关节掩码的加权L1损失表现最佳（MPJPE为51.4 mm），且网络架构选择对最终准确率影响较小。
引入总变差（TV）损失可略微提升结果（MPJPE为51.0 mm），表明UV图预测的平滑性和鲁棒性得到改善。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。