QUICK REVIEW

[论文解读] Synthesizing Training Images for Boosting Human 3D Pose Estimation

Wenzheng Chen, Huan Wang|arXiv (Cornell University)|Apr 10, 2016

Human Pose and Action Recognition参考文献 55被引用 66

一句话总结

本文提出了一种完全自动、可扩展的方法，用于生成多样化、高质量的带3D姿态标注的训练图像，以提升基于深度卷积神经网络的3D人体姿态估计性能。通过采样丰富的姿态空间并从真实图像中迁移逼真的服装纹理，作者生成了500万张合成图像，结合领域自适应技术后，在基准数据集上的表现优于仅使用真实数据训练的模型。

ABSTRACT

Human 3D pose estimation from a single image is a challenging task with numerous applications. Convolutional Neural Networks (CNNs) have recently achieved superior performance on the task of 2D pose estimation from a single image, by training on images with 2D annotations collected by crowd sourcing. This suggests that similar success could be achieved for direct estimation of 3D poses. However, 3D poses are much harder to annotate, and the lack of suitable annotated training images hinders attempts towards end-to-end solutions. To address this issue, we opt to automatically synthesize training images with ground truth pose annotations. Our work is a systematic study along this road. We find that pose space coverage and texture diversity are the key ingredients for the effectiveness of synthetic training data. We present a fully automatic, scalable approach that samples the human pose space for guiding the synthesis procedure and extracts clothing textures from real images. Furthermore, we explore domain adaptation for bridging the gap between our synthetic training images and real testing photos. We demonstrate that CNNs trained with our synthetic images out-perform those trained with real photos on 3D pose estimation tasks.

研究动机与目标

为解决3D人体姿态估计中3D标注训练数据稀缺的问题，此类数据通过人工标注成本过高。
克服动作捕捉数据的局限性，后者缺乏服装和背景变化等外观多样性。
开发一种可扩展、全自动的流水线，用于生成带有精确3D姿态标注和逼真纹理的合成图像。
通过一种新颖的领域自适应策略，弥合合成训练数据与真实测试图像之间的领域差距。
证明当结合有效的领域自适应技术时，合成数据可超越仅使用真实数据训练的模型在3D人体姿态估计任务中的表现。

提出的方法

基于动作捕捉数据和2D标注的3D姿态数据，构建统计人体模型，以实现对多样化体型和姿态的系统性采样。
采用数据驱动方法，将真实产品图像中的服装纹理自动迁移至3D人体模型，同时保留褶皱等精细细节。
通过将带关节和纹理的人体模型与随机的真实世界背景及多变光照条件相结合，渲染生成合成图像。
生成大规模数据集，共包含5,099,405张合成图像，覆盖广泛的姿态与纹理变化。
设计一种新型领域自适应网络，用于对齐合成图像与真实图像域的特征，提升模型在真实测试数据上的泛化能力。
该方法完全自动化，仅需极少用户输入，支持多样化训练数据的大规模生成。

实验结果

研究问题

RQ1具有丰富姿态与纹理变化的合成训练数据是否能在3D人体姿态估计中超越真实数据训练的模型？
RQ2姿态空间覆盖范围与纹理多样性在合成训练数据有效性中起到何种作用？
RQ3如何有效应用领域自适应技术，以弥合3D姿态估计中合成图像与真实图像之间的领域差距？
RQ4完全自动化的流水线能否生成高质量的合成图像，使其在真实世界测试数据上具有良好泛化能力？
RQ5与Human3.6M等现有数据集相比，合成数据的规模与多样性在多大程度上提升了模型的泛化能力？

主要发现

在多个基准测试中，使用作者合成数据训练的CNN模型表现优于使用真实图像训练的模型，包括最先进模型。
随着合成数据规模增大，领域自适应网络的性能显著提升，显示出强大的可扩展性。
合成过程中使用的独特服装纹理数量对模型性能有可测量的影响，证实了纹理多样性的重要性。
在泛化能力方面，合成数据优于Human3.6M，表现为在合成数据上测试时性能差距更大，表明其具有更高的变化性和更优的覆盖范围。
该领域自适应策略有效减少了领域偏移，即使在真实数据有限的情况下，也能更好地利用合成数据。
该方法可创建一个全新且更丰富的数据集，命名为Human3D+，将与代码和模型一同公开发布。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。