Skip to main content
QUICK REVIEW

[论文解读] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation

Hanbyul Joo, Natalia Neverova|arXiv (Cornell University)|Apr 7, 2020
Human Pose and Action Recognition参考文献 69被引用 51
一句话总结

本文提出了示例微调(Exemplar Fine-Tuning, EFT),一种通过利用3D参数化人体模型和数据驱动的姿态先验,从COCO和MPII等2D关键点数据集中生成精确3D人体姿态标注的方法,以解决深度模糊性问题。由此生成的大规模野外3D数据集实现了最先进的3D人体姿态估计性能,即使在具有挑战性的户外和互联网视频中亦表现优异。

ABSTRACT

We propose a method for building large collections of human poses with full 3D annotations captured `in the wild', for which specialized capture equipment cannot be used. We start with a dataset with 2D keypoint annotations such as COCO and MPII and generates corresponding 3D poses. This is done via Exemplar Fine-Tuning (EFT), a new method to fit a 3D parametric model to 2D keypoints. EFT is accurate and can exploit a data-driven pose prior to resolve the depth reconstruction ambiguity that comes from using only 2D observations as input. We use EFT to augment these large in-the-wild datasets with plausible and accurate 3D pose annotations. We then use this data to strongly supervise a 3D pose regression network, achieving state-of-the-art results in standard benchmarks, including the ones collected outdoor. This network also achieves unprecedented 3D pose estimation quality on extremely challenging Internet videos.

研究动机与目标

  • 为解决由于难以使用专业捕捉设备而导致的大规模、完全3D标注的野外人体姿态数据集缺失的问题。
  • 解决仅基于2D关键点观测在重建3D姿态时固有的深度模糊性问题。
  • 开发一种方法,为非受限、真实世界视频生成合理且精确的3D姿态标注。
  • 提升在具有挑战性的非受控环境(如户外场景和互联网视频)中3D人体姿态估计的性能。
  • 利用数据驱动先验,仅通过2D监督提升3D姿态重建的逼真度和准确性。

提出的方法

  • 提出示例微调(EFT)作为一种新型基于优化的方法,将3D参数化人体模型(如SMPL)拟合到2D关键点检测结果上。
  • EFT结合从现有3D人体姿态数据中学习到的数据驱动姿态先验,以指导3D重建并解决深度模糊性问题。
  • 通过最小化可微分损失函数来优化3D关节位置和身体形状参数,该损失函数结合了2D关键点重投影误差与姿态先验正则化。
  • 将EFT大规模应用于现有的2D关键点数据集(如COCO、MPII),以生成大量3D标注的野外图像集合。
  • 利用由此生成的合成3D标注数据集来监督3D姿态回归网络,提升其在非受限环境中的泛化能力。
  • 最终模型在标准基准数据集(包括野外和户外数据集)上进行训练与评估,实现了最先进性能。

实验结果

研究问题

  • RQ1数据驱动的姿态先验是否能有效解决无专用3D捕捉设备条件下的2D到3D姿态提升中的深度模糊性问题?
  • RQ2示例微调(EFT)是否能从非受限、真实世界场景中的2D关键点标注中生成高质量、逼真的3D人体姿态?
  • RQ3使用EFT生成的3D数据进行微调,在具有挑战性的野外和户外基准测试中,能在多大程度上提升3D姿态估计性能?
  • RQ4在复杂姿态和遮挡情况下,基于EFT标注数据训练的3D回归网络是否能泛化到极其具有挑战性的互联网视频?
  • RQ5在下游3D姿态估计精度方面,EFT生成的3D标注质量与真实3D标注相比如何?

主要发现

  • 示例微调(EFT)成功地从非受限、野外场景中的2D关键点检测结果中生成了准确且合理的3D人体姿态。
  • EFT生成的3D数据集为3D姿态回归网络提供了强有力的监督,使其在包括野外和户外数据集在内的标准基准上实现了最先进性能。
  • 该方法在极具挑战性的互联网视频上实现了前所未有的3D姿态估计质量,表现出对复杂场景和遮挡的强大鲁棒性。
  • EFT中集成的数据驱动姿态先验显著提升了深度估计的准确性,有效解决了2D观测中的固有模糊性。
  • EFT生成的3D标注数据集规模庞大,适用于训练深度网络,使其能够泛化至受控实验室环境之外的场景。
  • 最终的3D姿态估计模型在标准评估协议下优于先前方法,尤其在真实世界和非受限环境中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。