[论文解读] How Robust is 3D Human Pose Estimation to Occlusion?
这篇论文系统地研究了单张RGB图像中3D人体姿态估计的测试时遮挡效应,并表明最先进的模型对遮挡很脆弱,但训练期间的遮挡数据增强可以提升鲁棒性,甚至提升非遮挡时的表现。
Occlusion is commonplace in realistic human-robot shared environments, yet its effects are not considered in standard 3D human pose estimation benchmarks. This leaves the question open: how robust are state-of-the-art 3D pose estimation methods against partial occlusions? We study several types of synthetic occlusions over the Human3.6M dataset and find a method with state-of-the-art benchmark performance to be sensitive even to low amounts of occlusion. Addressing this issue is key to progress in applications such as collaborative and service robotics. We take a first step in this direction by improving occlusion-robustness through training data augmentation with synthetic occlusions. This also turns out to be an effective regularizer that is beneficial even for non-occluded test cases.
研究动机与目标
- 评估合成遮挡对 Human3.6M 上 3D 姿态估计精度的影响。
- 在各种遮挡类型和程度下评估基线的最先进方法。
- 研究训练阶段的遮挡增强作为提高对遮挡鲁棒性的方法。
提出的方法
- 使用具有 ResNet-50 主干的全卷积网络预测体积化关节热图。
- 通过对体积化热图进行 soft-argmax 并回投到相机空间来预测三维关节坐标。
- 在没有根骨深度增强的情况下评估平均每关节位置误差(MPJPE),并提供用于比较的神谕根深度选项。
- 在测试时引入合成遮挡(圆形、矩形、条形、VOC 对象)以模拟遮挡场景。
- 采用多种方案进行遮挡增强训练(单一矩形、多种几何形状、VOC对象贴图、混合策略)。
- 评估鲁棒性与正则化效果,并报告在 Titan X GPU 上的运行时性能。
实验结果
研究问题
- RQ1测试时的合成遮挡对 Human3.6M 上的 state-of-the-art 3D 姿态方法的 MPJPE 有何影响?
- RQ2哪些遮挡类型会导致姿态估计的降幅最大?
- RQ3在训练时进行遮挡感知数据增强是否能提高对多样遮挡物类型的鲁棒性?
- RQ4遮挡增强是否也提高非遮挡测试图像的性能?
- RQ5对于高帧率应用,所提出方法的运行时可行性如何?
主要发现
| 直接 | 讨论 | 吃 | 问候 | 电话 | 照片 | 姿态 | 购买 | 坐 | SitD | 抽烟 | 等待 | 走路 | WalkD | WalkT | 平均 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Pavlakos [18] | 67.4 | 72.0 | 66.7 | 69.1 | 72.0 | 77.0 | 65.0 | 68.3 | 83.7 | 96.5 | 71.7 | 65.8 | 59.1 | 74.9 | 63.2 | 71.9 |
| Pavlakos [18] (known root depth) | 59.3 | 64.9 | 59.4 | 61.3 | 65.1 | 69.0 | 57.1 | 60.1 | 75.1 | 91.9 | 64.5 | 59.6 | 66.8 | 53.7 | 56.8 | 64.8 |
| Ours (no occlusion augm.) | 60.2 | 64.1 | 55.9 | 58.3 | 63.8 | 69.5 | 58.8 | 64.4 | 67.7 | 90.8 | 61.9 | 59.2 | 66.0 | 56.9 | 50.8 | 63.3 |
| w/ circles augm. | 52.9 | 58.0 | 51.8 | 54.8 | 56.9 | 62.6 | 51.4 | 55.0 | 64.7 | 79.2 | 56.3 | 52.5 | 58.8 | 47.9 | 43.0 | 56.8 |
| w/ single rectangle augm. [26] | 52.0 | 58.6 | 51.0 | 53.5 | 56.1 | 62.6 | 51.5 | 54.2 | 65.7 | 71.2 | 56.1 | 52.9 | 58.2 | 47.8 | 42.9 | 56.1 |
| w/ rectangles augm. | 51.9 | 57.9 | 52.5 | 54.2 | 57.3 | 61.9 | 51.7 | 55.2 | 63.4 | 76.7 | 56.5 | 51.7 | 58.8 | 47.8 | 43.4 | 56.5 |
| w/ bars augm. | 55.0 | 60.1 | 54.1 | 56.4 | 59.9 | 64.9 | 52.4 | 59.5 | 67.7 | 88.7 | 58.5 | 54.2 | 62.4 | 50.0 | 45.4 | 59.6 |
| w/ VOC objects augm. | 51.2 | 58.7 | 51.7 | 53.4 | 56.8 | 59.3 | 50.7 | 52.6 | 65.5 | 73.2 | 56.8 | 51.4 | 56.6 | 47.0 | 42.4 | 55.8 |
| w/ mixture augm. | 51.3 | 57.8 | 52.5 | 53.8 | 55.9 | 58.7 | 50.9 | 52.8 | 66.7 | 77.1 | 56.6 | 51.7 | 56.6 | 47.6 | 42.8 | 56.1 |
- 基线 3D 姿态估计在非遮挡的测试条件下达到 state-of-the-art 的 MPJPE(63.3 mm,比可比方法报道的 64.8 mm 更好)。
- 圆形遮挡在测试的遮挡形状中导致误差增幅最大。
- 矩形相对不如圆形成问题,而 VOC 对象遮挡在各遮挡类型上展示了鲁棒性的泛化效果。
- 遮挡增强策略(尤其是 VOC 对象增强和混合策略)在所有测试类型下显著降低了遮挡下的 MPJPE。
- 遮挡增强也提升了非遮挡测试数据的性能(正则化效应)。
- 组合的遮挡增强策略在测试的遮挡类型上实现了鲁棒改进,并保持推理速度(批量大小 64 时最高可达 204 fps)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。