QUICK REVIEW

[论文解读] Monocular Total Capture: Posing Face, Body, and Hands in the Wild

Donglai Xiang, Hanbyul Joo|arXiv (Cornell University)|Dec 4, 2018

Human Pose and Action Recognition参考文献 56被引用 25

一句话总结

本论文提出了一种首个基于单目图像的、在真实场景中对人脸、身体和双手进行完整3D动作捕捉的方法，采用了一种新颖的3D部件朝向场（POFs）表示方法，并结合统一的优化框架与3D可变形人体模型。该方法在基准测试中实现了最先进性能，并通过基于纹理的跟踪技术，实现了从真实场景视频中获得时序一致的重建结果。

ABSTRACT

We present the first method to capture the 3D total motion of a target person from a monocular view input. Given an image or a monocular video, our method reconstructs the motion from body, face, and fingers represented by a 3D deformable mesh model. We use an efficient representation called 3D Part Orientation Fields (POFs), to encode the 3D orientations of all body parts in the common 2D image space. POFs are predicted by a Fully Convolutional Network (FCN), along with the joint confidence maps. To train our network, we collect a new 3D human motion dataset capturing diverse total body motion of 40 subjects in a multiview system. We leverage a 3D deformable human model to reconstruct total body pose from the CNN outputs by exploiting the pose and shape prior in the model. We also present a texture-based tracking method to obtain temporally coherent motion capture output. We perform thorough quantitative evaluations including comparison with the existing body-specific and hand-specific methods, and performance analysis on camera viewpoint and human pose changes. Finally, we demonstrate the results of our total body motion capture on various challenging in-the-wild videos. Our code and newly collected human motion dataset will be publicly shared.

研究动机与目标

实现从单目图像或视频在非受限环境中端到端地进行人脸、身体和双手的完整3D动作捕捉。
通过利用可变形人体模型提供的强3D形状与运动先验，解决单目3D姿态估计中的基本深度模糊问题。
开发一种统一框架，仅使用单视角输入联合估计身体、人脸和双手的3D姿态。
通过在纹理空间中进行光度一致性优化，提升视频序列中的时序一致性。
收集并发布一个大规模3D人体动作数据集，涵盖多样的全身、手部和面部动作，用于训练与评估。

提出的方法

该方法使用3D部件朝向场（POFs）在2D图像空间中编码身体各部分（如四肢、手指）的3D朝向，从而实现从单视角高效回归3D姿态。
全卷积网络（FCN）从输入图像中预测POFs和2D关节点置信度图，分别使用针对身体、双手和人脸的独立网络。
通过统一的优化框架将3D可变形人体模型拟合到CNN输出结果，确保所有身体部位之间的几何与运动学一致性。
该方法利用3D网格表示，通过最小化纹理空间中的光度误差，在时间上优化运动估计，从而提升时序一致性。
框架结合了3D模型的形状与运动先验，以增强预测稳定性，并在深度模糊与自遮挡场景中减少歧义。
收集了一个包含40名受试者的多视角3D人体动作数据集，用于在多样化姿态与视角下训练与评估该方法。

实验结果

研究问题

RQ1单目输入是否能够准确地在非受限、真实场景中同时重建人脸、身体和双手的3D完整动作？
RQ2与现有基于2D热力图的方法相比，所提出的3D部件朝向场（POFs）表示方法在3D姿态精度与鲁棒性方面表现如何？
RQ3将3D可变形人体模型集成后，在深度模糊与自遮挡情况下，姿态估计的性能提升程度如何？
RQ4基于纹理的跟踪方法在减少运动抖动并确保视频序列时序一致性方面效果如何？
RQ5该方法在不同相机视角与复杂人体姿态下泛化能力如何，特别是在严重遮挡或肢体缩短（foreshortening）情况下？

主要发现

在更贴近真实场景的深度对齐评估设置下，该方法在3D手部姿态基准测试中AUC达到0.84，优于先前最先进方法（AUC=0.70），甚至超过部分RGB-D方法（AUC=0.81）。
在3D身体姿态基准测试中，该方法在深度对齐后平均MPJPE为6.30 cm，但在背向与高仰角视角下误差较高，原因在于自遮挡与肢体缩短。
该方法在YouTube真实场景视频中表现出色，成功在复杂背景与光照条件下重建了多样的真实世界动作。
通过光度一致性进行时序优化显著提升了运动平滑性，表现为肩部轨迹重建中关节抖动明显减少，相比未跟踪结果有显著改善。
该方法在多样化身体姿态下表现出强泛化能力，但姿态涉及严重自遮挡或肢体缩短时误差较高，该结论通过聚类误差分析得到验证。
新收集的包含40名受试者的3D人体动作数据集为未来单目完整动作捕捉研究提供了宝贵的基准，支持多样的面部、身体与手部动作。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。