QUICK REVIEW

[论文解读] Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation

Hao-Shu Fang, Yuanlu Xu|arXiv (Cornell University)|Oct 17, 2017

Human Pose and Action Recognition参考文献 34被引用 32

一句话总结

该论文提出了一种深度语法网络，将人体构型知识——运动学、对称性及运动协调性——编码为分层双向RNN，以提升从2D输入进行3D人体姿态估计的性能。通过整合姿态语法规则与姿态样本模拟器进行数据增强，该方法在跨视角基准测试中实现了最先进性能，且泛化能力出色，在具有挑战性的跨相机评估协议下，平均误差最高降低12mm。

ABSTRACT

In this paper, we propose a pose grammar to tackle the problem of 3D human pose estimation. Our model directly takes 2D pose as input and learns a generalized 2D-3D mapping function. The proposed model consists of a base network which efficiently captures pose-aligned features and a hierarchy of Bi-directional RNNs (BRNN) on the top to explicitly incorporate a set of knowledge regarding human body configuration (i.e., kinematics, symmetry, motor coordination). The proposed model thus enforces high-level constraints over human poses. In learning, we develop a pose sample simulator to augment training samples in virtual camera views, which further improves our model generalizability. We validate our method on public 3D human pose benchmarks and propose a new evaluation protocol working on cross-view setting to verify the generalization capability of different methods. We empirically observe that most state-of-the-art methods encounter difficulty under such setting while our method can well handle such challenges.

研究动机与目标

解决2D到3D姿态估计方法在未见相机视角下的泛化能力差的问题。
显式地将人体构型的高层知识——运动学、对称性及运动协调性——编码进深度学习模型。
通过一种新颖的数据增强技术（基于姿态样本模拟器）提升模型的鲁棒性与泛化能力。
在一种新型跨视角评估协议下验证所提方法的有效性，该协议能暴露现有方法的过拟合问题。
证明基于语法的建模与合成数据增强可缩小与端到端图像基方法之间的性能差距。

提出的方法

该方法使用基础CNN从2D关节点检测中提取姿态对齐的特征。
在顶部堆叠分层的双向RNN（BRNN），以建模长程依赖关系，并施加来自人体构型的高层约束。
姿态语法编码了运动链（父子关节点关系）、身体部位间的对称性以及运动协调模式。
姿态样本模拟器通过将3D姿态投影到虚拟相机视角，生成合成的2D-3D姿态对，从而扩展训练数据的多样性。
模型通过反向传播进行端到端训练，语法组件与数据增强联合优化以提升泛化能力。
模拟器遵循几何原理生成真实感的2D投影，避免使用任意噪声进行数据增强。

实验结果

研究问题

RQ1显式建模人体构型知识是否能提升跨相机视角的3D姿态估计泛化能力？
RQ2使用虚拟相机视角进行数据增强是否能显著提升模型鲁棒性并减少过拟合？
RQ3在一种能暴露现有方法过拟合问题的新跨视角评估协议下，该方法表现如何？
RQ4基于语法的深度网络能否在零样本相机泛化场景下超越端到端图像基方法？
RQ5各组成部分——运动学、对称性、运动协调性——对性能提升的贡献程度如何？

主要发现

在新跨视角协议（#3）下，该方法在Human3.6M数据集上的平均误差为72.8mm，比第二好的方法低12mm。
先前最先进方法在协议#3下的性能下降幅度为17%至41%，表明其对特定相机视角存在严重过拟合。
消融实验表明，加入运动学语法规则使误差降低1.6%（75.1mm → 73.9mm），再加入对称性后误差进一步降低0.4%（73.9mm → 73.2mm）。
当增加6个额外虚拟相机视角时，姿态样本模拟器（PSS）使误差降低7%（82.6mm → 76.7mm），显著提升泛化能力。
将PSS应用于先前方法时，性能也得到提升，证实其作为数据增强技术的通用性。
在HumanEva-I和MPII数据集上，该方法在大多数受试者上均达到最先进结果，并在真实场景设置中表现出良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。