Skip to main content
QUICK REVIEW

[论文解读] General Automatic Human Shape and Motion Capture Using Volumetric Contour Cues

Helge Rhodin, Nadia Robertini|arXiv (Cornell University)|Jul 28, 2016
Human Pose and Action Recognition参考文献 65被引用 22
一句话总结

本文提出一种完全自动化的多视角视频联合三维人体形状与运动捕捉方法,利用体素轮廓线索,无需背景减除或人工初始化。该方法采用解析的、可微分的射线投射模型与高斯密度场,结合统计人体模型,仅需两台摄像机即可联合优化姿态、形状与外观,实现最先进的姿态估计精度,同时实现可直接用于动画的带骨骼模型的全自动重建。

ABSTRACT

Markerless motion capture algorithms require a 3D body with properly personalized skeleton dimension and/or body shape and appearance to successfully track a person. Unfortunately, many tracking methods consider model personalization a different problem and use manual or semi-automatic model initialization, which greatly reduces applicability. In this paper, we propose a fully automatic algorithm that jointly creates a rigged actor model commonly used for animation - skeleton, volumetric shape, appearance, and optionally a body surface - and estimates the actor's motion from multi-view video input only. The approach is rigorously designed to work on footage of general outdoor scenes recorded with very few cameras and without background subtraction. Our method uses a new image formation model with analytic visibility and analytically differentiable alignment energy. For reconstruction, 3D body shape is approximated as Gaussian density field. For pose and shape estimation, we minimize a new edge-based alignment energy inspired by volume raycasting in an absorbing medium. We further propose a new statistical human body model that represents the body surface, volumetric Gaussian density, as well as variability in skeleton shape. Given any multi-view sequence, our method jointly optimizes the pose and shape parameters of this model fully automatically in a spatiotemporal way.

研究动机与目标

  • 消除标记点捕捉中的人工或半自动初始化,以提升实际应用中的实用性。
  • 实现在非受控环境中,仅从稀疏多视角视频中联合估计个性化的三维人体形状、骨骼、外观与运动。
  • 开发一种可微分的、解析的图像形成模型,支持基于轮廓的对齐,而无需背景分割。
  • 构建一个统计人体模型,以低维空间表示表面、体积分率和骨骼尺寸的可变性。
  • 实现姿态与形状的完全自动、时空联合优化,同时利用关键点检测与图像梯度信息。

提出的方法

  • 将人体表示为附着于运动学骨骼的高斯密度场,实现平滑、可微分的形状表示。
  • 提出一种新颖的解析可见性模型与基于吸收介质中体素射线投射的可微分对齐能量。
  • 利用图像梯度定义一种类似脊线的轮廓能量,用于度量模型轮廓在原始RGB图像中的对齐程度。
  • 在第一阶段采用基于卷积神经网络的关键点检测系统进行初始姿态估计,第二阶段进行轮廓优化。
  • 应用时空优化框架,联合利用检测与轮廓线索对姿态与形状参数进行优化。
  • 学习一种统计人体模型,以编码表面、体积分率与骨骼尺寸的可变性,实现稳健泛化。

实验结果

研究问题

  • RQ1是否能够实现完全自动的方法,仅从最少的多视角视频输入中联合估计三维人体形状、姿态与外观,而无需背景减除?
  • RQ2是否能够在高斯混合体素表示中,形式化一种解析的、可微分的轮廓对齐能量,以实现鲁棒的形状优化?
  • RQ3是否能够通过单一统计人体模型有效表示表面、体积分率与骨骼尺寸的可变性,从而实现对多样化受试者的泛化?
  • RQ4是否能够仅从视频画面中实现准确、全自动的带骨骼动画模型初始化,而无需预先扫描或人工分割?
  • RQ5该方法在真实世界、非受控场景中,仅使用少量摄像机与复杂背景时,表现如何?

主要发现

  • 在HumanEVA-I数据集上,该方法的平均姿态误差为74.9毫米(±21.9毫米),与需要人工初始化的最先进方法相当。
  • 通过关键点偏移补偿,平均姿态误差降低至3–5厘米,表明即使在完全自动初始化下仍具备高精度。
  • 该方法在仅使用两台摄像机的情况下,成功实现了室内与室外场景中准确的三维形状与姿态重建。
  • 运行时间与帧数和摄像机数量呈线性关系,每视角的轮廓优化仅需3秒(50帧、6个视角共需15分钟)。
  • 该方法对各类服装(包括裙子与宽松衣物)具有良好的泛化能力,尽管无法重建面部特征或手部关节等精细细节。
  • 该方法可实现从两台或更多摄像机的全自动重建,以及从单张图像的半自动形状估计,显著减少了人工工作量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。