QUICK REVIEW

[论文解读] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation

Hanbyul Joo, Natalia Neverova|arXiv (Cornell University)|Apr 7, 2020

Human Pose and Action Recognition参考文献 69被引用 51

一句话总结

本文提出了示例微调（Exemplar Fine-Tuning, EFT），一种通过利用3D参数化人体模型和数据驱动的姿态先验，从COCO和MPII等2D关键点数据集中生成精确3D人体姿态标注的方法，以解决深度模糊性问题。由此生成的大规模野外3D数据集实现了最先进的3D人体姿态估计性能，即使在具有挑战性的户外和互联网视频中亦表现优异。

ABSTRACT

We propose a method for building large collections of human poses with full 3D annotations captured `in the wild', for which specialized capture equipment cannot be used. We start with a dataset with 2D keypoint annotations such as COCO and MPII and generates corresponding 3D poses. This is done via Exemplar Fine-Tuning (EFT), a new method to fit a 3D parametric model to 2D keypoints. EFT is accurate and can exploit a data-driven pose prior to resolve the depth reconstruction ambiguity that comes from using only 2D observations as input. We use EFT to augment these large in-the-wild datasets with plausible and accurate 3D pose annotations. We then use this data to strongly supervise a 3D pose regression network, achieving state-of-the-art results in standard benchmarks, including the ones collected outdoor. This network also achieves unprecedented 3D pose estimation quality on extremely challenging Internet videos.

研究动机与目标

为解决由于难以使用专业捕捉设备而导致的大规模、完全3D标注的野外人体姿态数据集缺失的问题。
解决仅基于2D关键点观测在重建3D姿态时固有的深度模糊性问题。
开发一种方法，为非受限、真实世界视频生成合理且精确的3D姿态标注。
提升在具有挑战性的非受控环境（如户外场景和互联网视频）中3D人体姿态估计的性能。
利用数据驱动先验，仅通过2D监督提升3D姿态重建的逼真度和准确性。

提出的方法

提出示例微调（EFT）作为一种新型基于优化的方法，将3D参数化人体模型（如SMPL）拟合到2D关键点检测结果上。
EFT结合从现有3D人体姿态数据中学习到的数据驱动姿态先验，以指导3D重建并解决深度模糊性问题。
通过最小化可微分损失函数来优化3D关节位置和身体形状参数，该损失函数结合了2D关键点重投影误差与姿态先验正则化。
将EFT大规模应用于现有的2D关键点数据集（如COCO、MPII），以生成大量3D标注的野外图像集合。
利用由此生成的合成3D标注数据集来监督3D姿态回归网络，提升其在非受限环境中的泛化能力。
最终模型在标准基准数据集（包括野外和户外数据集）上进行训练与评估，实现了最先进性能。

实验结果

研究问题

RQ1数据驱动的姿态先验是否能有效解决无专用3D捕捉设备条件下的2D到3D姿态提升中的深度模糊性问题？
RQ2示例微调（EFT）是否能从非受限、真实世界场景中的2D关键点标注中生成高质量、逼真的3D人体姿态？
RQ3使用EFT生成的3D数据进行微调，在具有挑战性的野外和户外基准测试中，能在多大程度上提升3D姿态估计性能？
RQ4在复杂姿态和遮挡情况下，基于EFT标注数据训练的3D回归网络是否能泛化到极其具有挑战性的互联网视频？
RQ5在下游3D姿态估计精度方面，EFT生成的3D标注质量与真实3D标注相比如何？

主要发现

示例微调（EFT）成功地从非受限、野外场景中的2D关键点检测结果中生成了准确且合理的3D人体姿态。
EFT生成的3D数据集为3D姿态回归网络提供了强有力的监督，使其在包括野外和户外数据集在内的标准基准上实现了最先进性能。
该方法在极具挑战性的互联网视频上实现了前所未有的3D姿态估计质量，表现出对复杂场景和遮挡的强大鲁棒性。
EFT中集成的数据驱动姿态先验显著提升了深度估计的准确性，有效解决了2D观测中的固有模糊性。
EFT生成的3D标注数据集规模庞大，适用于训练深度网络，使其能够泛化至受控实验室环境之外的场景。
最终的3D姿态估计模型在标准评估协议下优于先前方法，尤其在真实世界和非受限环境中表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。