Skip to main content
QUICK REVIEW

[论文解读] Towards Accurate Markerless Human Shape and Pose Estimation over Time

Yinghao Huang, Federica Bogo|arXiv (Cornell University)|Jul 24, 2017
Human Pose and Action Recognition参考文献 7被引用 68
一句话总结

MuVS 将 SMPLify 扩展到多视角和单目视频,通过拟合 3D SMPL 身体模型到 2D 关节和轮廓,带有基于 DCT 的时序先验,能够在不需要背景信息的情况下获得准确的姿态和逼真的人体网格。

ABSTRACT

Existing marker-less motion capture methods often assume known backgrounds, static cameras, and sequence specific motion priors, which narrows its application scenarios. Here we propose a fully automatic method that given multi-view video, estimates 3D human motion and body shape. We take recent SMPLify \cite{bogo2016keep} as the base method, and extend it in several ways. First we fit the body to 2D features detected in multi-view images. Second, we use a CNN method to segment the person in each image and fit the 3D body model to the contours to further improves accuracy. Third we utilize a generic and robust DCT temporal prior to handle the left and right side swapping issue sometimes introduced by the 2D pose estimator. Validation on standard benchmarks shows our results are comparable to the state of the art and also provide a realistic 3D shape avatar. We also demonstrate accurate results on HumanEva and on challenging dance sequences from YouTube in monocular case.

研究动机与目标

  • 提供基于多视角视频的全自动无标记的 3D 人体姿态和形状估计。
  • 利用 SMPL 实现一致的身体形状与姿态表示。
  • 结合 CNN 基于的 2D 关节和轮廓以提升拟合精度。
  • 使用基于 DCT 的时域先验解决左右互换和时序不一致问题。
  • 证明适用于单目序列和具有挑战性的真实世界视频。

提出的方法

  • 用 SMPL 模型表示人体,并优化姿态和形状以与多视角 2D 关节对齐。
  • 使用 CNN 检测 2D 关节并在每个视图中分割人体轮廓。
  • 在各视图中对每帧独立拟合 SMPL,然后用轮廓(E_S 项)细化形状。
  • 使用低维度的 DCT 时序先验将时间上的帧结合起来以约束关节轨迹(E_T 项),并最小化鲁棒关节重投影误差。
  • 采用分层优化策略:先拟合关节,再结合轮廓和时序正则化;对残差使用鲁棒的 Geman-McClure 误差。
  • 提供消融研究以量化轮廓、时序先验和多视图数据的影响;展示在有限时序线索下的单目能力。

实验结果

研究问题

  • RQ1一个全自动的多视图系统是否能够在不进行背景减除或用户干预的情况下估计出准确的 3D 人体姿态和形状?
  • RQ2结合轮廓信息和时序 DCT 先验是否比逐帧拟合提高姿态和形状的准确性?
  • RQ3多视图数据在解决左/右互换和姿态模棱两可等问题上,与单目序列相比有何差异?
  • RQ4该方法是否能够生成适用于动画的逼真 3D 身体网格,而不仅仅是关节估计?
  • RQ5该方法是否能推广到具有挑战性的单目视频以及超越 HumanEva 的数据集,如 Human3.6M 和 YouTube 序列?

主要发现

  • MuVS 在 HumanEva 和 Human3.6M 上实现的姿态误差与最先进的基准相当。
  • 轮廓拟合显著提升 3D 姿态和形状的准确性及网格真实感。
  • 基于 DCT 的时序先验降低了逐帧误差并缓解了腿部互换等时序伪影。
  • 使用多视图相较于单视图 SMPLify 取得显著提升,尤其在朝向和姿态准确性方面。
  • 该方法通过 SMPL 模型生成逼真的身体网格,能够实现可信的化身生成和动画。
  • 单目序列显示出可行结果,时间上的连贯性在有限深度线索下实现了合理的重建。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。