[论文解读] Towards 3D Human Pose Estimation in the Wild: a Weakly-supervised Approach
提出一个端到端弱监督框架,将室内带3D标签数据的3D姿态知识迁移到野外带2D标签数据,整合2D姿态和深度回归,并加入几何约束以对3D预测进行正则化。
In this paper, we study the task of 3D human pose estimation in the wild. This task is challenging due to lack of training data, as existing datasets are either in the wild images with 2D pose or in the lab images with 3D pose. We propose a weakly-supervised transfer learning method that uses mixed 2D and 3D labels in a unified deep neutral network that presents two-stage cascaded structure. Our network augments a state-of-the-art 2D pose estimation sub-network with a 3D depth regression sub-network. Unlike previous two stage approaches that train the two sub-networks sequentially and separately, our training is end-to-end and fully exploits the correlation between the 2D pose and depth estimation sub-tasks. The deep features are better learnt through shared representations. In doing so, the 3D pose labels in controlled lab environments are transferred to in the wild images. In addition, we introduce a 3D geometric constraint to regularize the 3D pose prediction, which is effective in the absence of ground truth depth labels. Our method achieves competitive results on both 2D and 3D benchmarks.
研究动机与目标
- 在野外场景中实现3D姿态估计的动机,尽管野外3D数据有限。
- 提出一个端到端网络,使用2D和3D数据共同学习2D姿态和深度回归。
- 利用中间的2D图像特征来提升3D深度预测。
- 在仅有2D标签可用时引入3D几何约束以对深度进行正则化。
- 在3D和2D基准上展示最新进展或有竞争力的性能,并展示对野外场景的迁移能力。
提出的方法
- 一个由两阶段级联网络组成,包含一个2D姿态估计模块和一个深度回归模块。
- 2D模块采用堆叠式沙漏(stacked hourglass)架构来生成2D关节点热图。
- 深度模块以2D模块的中间特征图和2D热图为输入,对每个关节的深度值进行回归。
- 训练在一个统一的端到端框架中同时利用带3D标签的室内数据和带2D标签的野外数据。
- 当没有3D深度标签时,3D几何约束通过在预定义骨骼组内基于骨骼长度比的可微分损失 L_geo,来强制关节间骨长比的稳定性。
- 整个损失由 L_2D 和 L_dep 组成,其中 L_dep 对3D数据使用欧几里得损失,对2D数据使用几何损失,并且采用三阶段训练方案(阶段1:2D预训练,阶段2:带2D微调的3D深度训练,阶段3:带几何约束的联合微调)。
实验结果
研究问题
- RQ1一个统一的端到端网络是否能够通过利用室内3D数据和野外2D数据有效学习野外的3D姿态估计?
- RQ2引入中间的2D特征和几何深度正则化损失是否能提升野外的3D姿态准确性和姿态的合理性?
- RQ3提出的弱监督方法在标准3D姿态基准上与完全监督和其他野外方法相比如何?
- RQ4三阶段的训练协议是否能稳定端到端训练并最大化跨领域深度信息的迁移?
主要发现
- 提出的3D+2D/w geo模型相较基线在Human3.6M上的MPJPE显著提升(例如在无几何约束时为64.90 mm对82.44 mm)。
- 同时使用2D和3D数据进行联合训练,较仅使用3D数据或仅使用2D数据时获得显著提升,展示了有效的跨域迁移。
- 几何约束提升了左右骨对称性和整体几何有效性,即使在野外的MPII验证集和MPI-INF-3DHP数据集上也如此。
- 2D姿态精度(PCKh@0.5)保持具竞争力,表明深度监督有利于深度模块而不牺牲2D性能。
- 该方法在野外基准(MPI-INF-3DHP)上实现了接近最先进水平的结果,且未使用它们的全部训练数据,说明具有强大的迁移能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。