Skip to main content
QUICK REVIEW

[论文解读] MonoPerfCap: Human Performance Capture from Monocular Video

Weipeng Xu, Avishek Chatterjee|arXiv (Cornell University)|Aug 7, 2017
Human Pose and Action Recognition参考文献 80被引用 42
一句话总结

MonoPerfCap 提出了一种无需标记、基于单目视频的时序一致3D人体动作捕捉方法,结合稀疏2D/3D关节点检测与低维轨迹子空间,并通过轮廓驱动的表面精炼,实现了从单个RGB视频中重建关节运动与中等规模非刚性形变的最先进精度。

ABSTRACT

We present the first marker-less approach for temporally coherent 3D performance capture of a human with general clothing from monocular video. Our approach reconstructs articulated human skeleton motion as well as medium-scale non-rigid surface deformations in general scenes. Human performance capture is a challenging problem due to the large range of articulation, potentially fast motion, and considerable non-rigid deformations, even from multi-view data. Reconstruction from monocular video alone is drastically more challenging, since strong occlusions and the inherent depth ambiguity lead to a highly ill-posed reconstruction problem. We tackle these challenges by a novel approach that employs sparse 2D and 3D human pose detections from a convolutional neural network using a batch-based pose estimation strategy. Joint recovery of per-batch motion allows to resolve the ambiguities of the monocular reconstruction problem based on a low dimensional trajectory subspace. In addition, we propose refinement of the surface geometry based on fully automatically extracted silhouettes to enable medium-scale non-rigid alignment. We demonstrate state-of-the-art performance capture results that enable exciting applications such as video editing and free viewpoint video, previously infeasible from monocular video. Our qualitative and quantitative evaluation demonstrates that our approach significantly outperforms previous monocular methods in terms of accuracy, robustness and scene complexity that can be handled.

研究动机与目标

  • 解决从单目RGB视频中重建时序一致3D人体动作的挑战,该挑战面临深度模糊与强烈遮挡问题。
  • 通过利用时序一致性和运动先验,克服单目重建固有的病态性问题。
  • 在无需标记或多视角设置的情况下,实现对关节运动与中等规模非刚性表面形变的高保真捕捉。
  • 仅使用单个RGB摄像头,在复杂场景(包括户外与一般背景环境)中实现鲁棒的动作捕捉。
  • 展示该方法在自由视角视频与视频编辑中的适用性,这些应用此前仅靠单目输入难以实现。

提出的方法

  • 采用基于批次的关节点估计策略,利用卷积神经网络(CNN)在视频帧中检测稀疏的2D与3D人体关节点位置。
  • 使用低维轨迹子空间对3D关节点估计进行正则化,以解决单目重建中固有的深度模糊问题。
  • 将判别性2D关节点检测结果作为地标,用于将3D骨骼与图像对齐,提升对遮挡的鲁棒性。
  • 利用第二个CNN直接从单目图像回归3D关节点位置,减少关节点处的“前后翻转”模糊性。
  • 通过完全自动提取的轮廓对表面几何进行精炼,以实现中等规模非刚性形变的对齐。
  • 采用基于个体特异性模板网格与运动学骨骼的中等规模形变场,对形变表面进行参数化,以实现精确的动态表面重建。

实验结果

研究问题

  • RQ1仅依靠单目视频能否实现时序一致的3D人体动作捕捉,而无需标记或多视角数据?
  • RQ2如何有效解决单目视频中的深度模糊与强烈遮挡问题,以实现准确的3D重建?
  • RQ3在时序空间中,低维运动先验在多大程度上能提升单目3D关节点估计的鲁棒性与准确性?
  • RQ4基于轮廓的精炼方法能否在无显式深度或多视角输入的情况下,实现对中等规模非刚性表面形变的准确恢复?
  • RQ5与基于立体视觉及多视角的动作捕捉相比,该方法在重建质量与场景复杂度方面表现如何?

主要发现

  • MonoPerfCap 在单目人体动作捕捉任务中达到最先进性能,显著优于以往方法,在精度、鲁棒性与场景复杂度方面均表现优异。
  • 该方法成功从单目视频中重建出完整的关节运动与中等规模非刚性表面形变,即使在具有复杂背景的一般场景中亦能实现。
  • 低维轨迹子空间的使用有效解决了单目重建中的深度模糊问题,显著提升了3D关节点估计的稳定性。
  • 基于轮廓的精炼方法显著提高了表面几何精度,平均轮廓重叠度(AO)指标显示出与真实值的高度对齐。
  • 该方法实现了此前仅靠单目输入难以实现的应用,如自由视角视频与视频编辑。
  • 尽管在脚部追踪与衣物拓扑变化方面存在局限,系统仍能通过鲁棒的2D关节点检测实现对遮挡的即时恢复。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。