QUICK REVIEW

[论文解读] Unite the People: Closing the Loop Between 3D and 2D Human Representations

Christoph Lassner, Javier Romero|arXiv (Cornell University)|Jan 10, 2017

Human Pose and Action Recognition参考文献 44被引用 46

一句话总结

本文提出了一种自我改进的框架，通过使用半自动化的流水线，将2D与3D人体表征闭环连接，从2D关键点标注中生成高质量的3D人体模型拟合。通过在初始数据集（UP-3D）上训练一个91个关键点的姿态估计算法，该方法提升了3D拟合的准确性，实现了在仅使用1/10训练数据的情况下达到最先进水平的3D人体姿态与形状估计，并通过直接回归模型实现数量级更快的推理速度，达到实时性能。

ABSTRACT

3D models provide a common ground for different representations of human bodies. In turn, robust 2D estimation has proven to be a powerful tool to obtain 3D fits "in-the- wild". However, depending on the level of detail, it can be hard to impossible to acquire labeled data for training 2D estimators on large scale. We propose a hybrid approach to this problem: with an extended version of the recently introduced SMPLify method, we obtain high quality 3D body model fits for multiple human pose datasets. Human annotators solely sort good and bad fits. This procedure leads to an initial dataset, UP-3D, with rich annotations. With a comprehensive set of experiments, we show how this data can be used to train discriminative models that produce results with an unprecedented level of detail: our models predict 31 segments and 91 landmark locations on the body. Using the 91 landmark pose estimator, we present state-of-the art results for 3D human pose and shape estimation using an order of magnitude less training data and without assumptions about gender or pose in the fitting procedure. We show that UP-3D can be enhanced with these improved fits to grow in quantity and quality, which makes the system deployable on large scale. The data, code and models are available for research purposes.

研究动机与目标

解决用于训练鲁棒2D与3D人体感知模型的大规模、详细3D人体标注数据稀缺的问题。
开发一种可扩展的、迭代的框架，通过在生成的3D拟合上训练判别模型，利用反馈提升3D拟合质量。
在极少人工标注数据的基础上，实现对31个体部和91个关键点位置的高保真3D人体建模。
通过用直接回归模型替代耗时的优化拟合方法，实现实时3D姿态与形状预测。
证明改进的3D拟合可用于扩展训练数据集，实现持续的自我改进。

提出的方法

采用增强版SMPLify方法，从2D关键点标注生成高质量3D人体模型拟合，改进了初始化方式并引入了额外的拟合目标。
人工标注者仅需对3D拟合结果进行好坏分类，显著降低标注工作量，同时保持标签一致性。
由此生成的初始数据集UP-3D，涵盖多个数据集，包含31个体部和91个关键点位置的丰富标注。
训练一个深度卷积神经网络（ResNet-101），从2D图像中预测91个3D人体关键点，实现直接的3D姿态估计。
训练一个基于随机森林的直接预测器，从2D关键点回归完整的3D人体模型参数（姿态与形状），实现亚秒级推理速度。
通过使用改进后的91个关键点预测结果，对先前被拒绝的图像重新拟合3D模型，从而扩展数据集，提升标注质量，实现系统闭环。

实验结果

研究问题

RQ1半自动化流水线是否能显著减少人工标注工作量，同时生成高质量的3D人体拟合？
RQ2在小规模、精选的3D拟合数据集上训练的91个关键点姿态估计算法，是否能在标准基准上以极少的训练数据实现最先进性能？
RQ3直接回归模型是否能替代耗时的优化拟合方法，同时保持高精度并实现实时推理？
RQ4提升的3D拟合质量是否能显著增加大规模数据集中可用的高质量拟合数量？
RQ5判别模型与生成拟合之间的反馈回路是否能实现数据集质量与数量的迭代提升？

主要发现

91个关键点姿态估计算法在HumanEva和Human3.6M数据集上实现了最先进性能，仅使用了先前方法1/10的训练数据。
直接回归模型在0.378秒内完成完整3D人体构型预测，其中卷积神经网络是主要计算瓶颈。
直接预测器在所有基于优化的方法中表现最佳，仅略逊于SMPLify（后者耗时数十秒）。
在LSP数据集上，改进的3D拟合方法使高质量可接受拟合数量相比仅使用14个真实关键点的方案提升了9.3%。
该系统使LSP数据集中可用数据量扩大了20%（以可接受拟合数量衡量），其中308张图像的分割F1分数得到提升。
反馈回路支持迭代式数据扩展：91个关键点模型生成的改进拟合使人工标注者能够接受185张额外图像，证明了持续的自我改进能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。