QUICK REVIEW

[论文解读] BodyNet: Volumetric Inference of 3D Human Body Shapes

Gül Varol, Duygu Ceylan|arXiv (Cornell University)|Apr 13, 2018

Human Pose and Action Recognition参考文献 57被引用 62

一句话总结

BodyNet 学习从单幅图像推断完整的三维体积人类身体形状，使用体素占据表示、多视投影损失和中间监督，在 SURREAL 与 Unite the People 数据集上达到最先进的 SMPL 拟合，并实现三维身体部位分割。

ABSTRACT

Human shape estimation is an important task for video editing, animation and fashion industry. Predicting 3D human body shape from natural images, however, is highly challenging due to factors such as variation in human bodies, clothing and viewpoint. Prior methods addressing this problem typically attempt to fit parametric body models with certain priors on pose and shape. In this work we argue for an alternative representation and propose BodyNet, a neural network for direct inference of volumetric body shape from a single image. BodyNet is an end-to-end trainable network that benefits from (i) a volumetric 3D loss, (ii) a multi-view re-projection loss, and (iii) intermediate supervision of 2D pose, 2D body part segmentation, and 3D pose. Each of them results in performance improvement as demonstrated by our experiments. To evaluate the method, we fit the SMPL model to our network output and show state-of-the-art results on the SURREAL and Unite the People datasets, outperforming recent approaches. Besides achieving state-of-the-art performance, our method also enables volumetric body-part segmentation.

研究动机与目标

解决单视图三维人体形状估计。
引入用于三维人体形状的体积化体素表示。
开发一个端到端网络，具备多视重投影与中间监督（2D 姿态、2D 分割、3D 姿态）。
在 SURREAL 和 Unite the People 数据集上实现最先进的 SMPL 拟合结果。
实现体积化三维身体部位分割，与形状预测并行。

提出的方法

将 3D 身体形状预测为以根关节为中心、分辨率为 128x128x128 的体素占据网格。
使用体素级二元交叉熵损失进行训练，并通过多类别交叉熵损失扩展到 3D 身体部位分割。
通过将体素网格投影到前视和侧视来强调边界体素，使用多视重投影损失（FV 和 SV 损失）。
采用多任务学习设置，进行 2D 姿态、2D 身体部位分割和 3D 姿态的中间监督，以辅助 3D 形状估计。
使用分阶段训练课程：先训练 2D 任务，再训练 3D 姿态，然后在带有重投影损失的情况下训练 3D 形状，随后进行端到端微调，使用综合损失。
在评估中，通过等值面提取将 SMPL 模型拟合到体素输出，并通过 Chamfer 距离加一个关节对齐项来优化 SMPL 参数。

实验结果

研究问题

RQ1基于体素的体积化表示是否能够从 RGB 图像得到准确的单视图三维人体形状？
RQ2是否加入多视重投影损失会提高体积化人体重建的质量，尤其是四肢部分？
RQ3中间监督信号（2D 姿态、2D 分割、3D 姿态）是否改善最终的 3D 形状估计和 SMPL 拟合？
RQ4与先前方法相比，BodyNet 在像 SURREAL 和 Unite the People (UP) 这样的大规模数据集上的表现如何？
RQ5体积化网络是否也能在不进行单独优化的情况下实现 3D 身体部位分割？

主要发现

BodyNet 在 SURREAL 与 Unite the People 数据集上实现了最先进的 SMPL 拟合，当以端到端方式训练并结合多视重投影和辅助任务时。
使用多视 FV 与 SV 的轮廓投影在 SMPL 表面误差和体素 IOU 上优于消融变体。
端到端多任务训练结合中间监督使所有子网络正则化，且比独立训练各组件得到更好的 3D 形状估计。
该方法实现了 3D 身体部位分割，在现代显卡上每张图像处理时间为 0.28s（前景体素）和 0.58s（身体部位体素）。
一个 beta 参数回归网络相较于基于体素的 BodyNet 表现较差，突显了通过体积预测学习偏离平均 SMPL 形状的优势。
将 SMPL 拟合到体素输出可实现对三维姿态的稳健对齐，并在三维指标上优于仅依赖 2D 线索的竞争方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。