Skip to main content
QUICK REVIEW

[论文解读] Synthetic Training for Accurate 3D Human Pose and Shape Estimation in the Wild

Akash Sengupta, Ignas Budvytis|arXiv (Cornell University)|Sep 21, 2020
Human Pose and Action Recognition被引用 44
一句话总结

STRAPS 使用基于 SMPL 人体模型的即时合成训练数据,从单幅 RGB 图像学习鲁棒的 3D 人体姿态与形状,并引入用于评估的 SSP-3D 野外环境数据集。该方法在形状准确性方面有所提升,并在姿态性能方面与最先进方法相竞争。

ABSTRACT

This paper addresses the problem of monocular 3D human shape and pose estimation from an RGB image. Despite great progress in this field in terms of pose prediction accuracy, state-of-the-art methods often predict inaccurate body shapes. We suggest that this is primarily due to the scarcity of in-the-wild training data with diverse and accurate body shape labels. Thus, we propose STRAPS (Synthetic Training for Real Accurate Pose and Shape), a system that utilises proxy representations, such as silhouettes and 2D joints, as inputs to a shape and pose regression neural network, which is trained with synthetic training data (generated on-the-fly during training using the SMPL statistical body model) to overcome data scarcity. We bridge the gap between synthetic training inputs and noisy real inputs, which are predicted by keypoint detection and segmentation CNNs at test-time, by using data augmentation and corruption during training. In order to evaluate our approach, we curate and provide a challenging evaluation dataset for monocular human shape estimation, Sports Shape and Pose 3D (SSP-3D). It consists of RGB images of tightly-clothed sports-persons with a variety of body shapes and corresponding pseudo-ground-truth SMPL shape and pose parameters, obtained via multi-frame optimisation. We show that STRAPS outperforms other state-of-the-art methods on SSP-3D in terms of shape prediction accuracy, while remaining competitive with the state-of-the-art on pose-centric datasets and metrics.

研究动机与目标

  • 解决单目 3D 人体姿态/形状估计数据集中身体形状多样性不足的问题。
  • 提出一个合成训练框架(STRAPS),从代理输入回归 SMPL 形状和姿态。
  • 通过增强来证明对嘈杂真实输入的鲁棒性,从而改善野外场景中的形状预测。

提出的方法

  • 使用现成的检测器从 RGB 预测代理表示(轮廓和 2D 关节)。
  • 训练一个回归网络,利用即时的合成数据把代理表示映射到 SMPL 形状和姿态参数。
  • 通过采样 SMPL 形状和姿态、渲染轮廓和 2D 关节,并应用形状增强以增加多样性,来生成合成输入。
  • 用噪声、遮挡以及检测/分割错误来增强代理输入,以缩小合成与真实之间的差距。
  • 使用基于同方差不确定性的自适应加权的多任务损失,监督 SMPL 参数、3D 关节、3D 顶点和 2D 关节。
  • 使用 SSP-3D(形状聚焦)以及以姿态为焦点的数据集(Human3.6M、3DPW、MoVi)来基准形状和姿态的准确性。

实验结果

研究问题

  • RQ1利用 SMPL 和简单代理输入进行即时生成的合成数据,是否能够在野外场景中提高形状多样性和预测准确性?
  • RQ2通过对代理输入进行噪声和遮挡增强,是否能弥合合成与真实在测试时输入之间的差距?
  • RQ3与现有方法在形状和姿态指标上的比较,STRAPS 在多样化的野外形状数据集(SSP-3D)上的表现如何?

主要发现

  • STRAPS 在 SSP-3D 上的形状预测准确性更高(在 PVE-T-SC 和 mIOU 上超越了最先进的方法)。
  • 在以姿态为中心的数据集上,该方法仍与最先进方法竞争力强(例如在 3DPW 和 Human3.6M 上的 MPJPE-PA)。
  • 形状增强增加了预测身体形状的多样性,当与代理表示增强结合时,提升了对非典型主体的表现。
  • 代理表示增强(轮廓 + 2D 关节,带噪声/遮挡)在从合成输入转为真实输入时减少了性能下降。
  • 两阶段方法(代理表示→再回归 SMPL)实现了强有力的 3D 监督,而不需要带有 3D 标注的真实训练数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。