[论文解读] Self Adversarial Training for Human Pose Estimation
本文提出了一种基于两个相同堆叠沙漏网络的自对抗训练框架,用于人体姿态估计:其中一个作为生成器,用于预测关键点热力图,另一个作为判别器,用于区分合理与不合理的身体构型。对抗性损失通过强制执行结构一致性来提升预测精度,在 LSP、MPII 和 LIP 基准测试中实现了最先进性能,相较于基线沙漏网络,PCKh 提升最高达 1.8%。
This paper presents a deep learning based approach to the problem of human pose estimation. We employ generative adversarial networks as our learning paradigm in which we set up two stacked hourglass networks with the same architecture, one as the generator and the other as the discriminator. The generator is used as a human pose estimator after the training is done. The discriminator distinguishes ground-truth heatmaps from generated ones, and back-propagates the adversarial loss to the generator. This process enables the generator to learn plausible human body configurations and is shown to be useful for improving the prediction accuracy.
研究动机与目标
- 为解决在单图姿态估计中预测不合理的身体构型的问题,尤其是在遮挡或背景杂乱情况下的挑战。
- 通过对抗性训练引入结构先验,以提升关键点热力图预测的准确性。
- 在不依赖手工设计先验或后处理图模型的前提下,增强特征表示学习能力。
- 通过在训练后移除判别器,保持推理效率,避免引入运行时开销。
提出的方法
- 采用双堆叠沙漏网络架构,其中一个网络作为生成器,另一个作为判别器,两者共享相同架构。
- 生成器通过多尺度、自底向上与自顶向下联合推理机制,从输入图像中生成关键点热力图。
- 判别器通过区分生成热力图与真实热力图,评估其结构合理性。
- 通过最小最大损失进行对抗性训练,其中生成器被更新以欺骗判别器,从而提升预测姿态的真实感与正确性。
- 采用标准 GAN 训练动态,判别器仅作为判别器角色,无需对其架构进行任何修改。
- 训练完成后,移除判别器,仅保留生成器用于推理,确保无运行时性能开销。
实验结果
研究问题
- RQ1使用共享架构的判别器进行对抗性训练,能否提升单图姿态估计中预测人体姿态的结构合理性?
- RQ2在热力图真实性上进行训练的判别器,是否能相比标准堆叠沙漏网络,带来更好的关键点定位精度?
- RQ3对抗性损失的引入如何影响不同网络深度下的收敛速度与最终性能?
- RQ4判别器的性能是否依赖于输入图像的上下文信息,还是仅凭热力图即可判断姿态的合理性?
- RQ5在准确率与训练稳定性之间,网络深度与对抗性正则化的最优权衡是什么?
主要发现
- 所提方法在 LSP 数据集上达到最先进性能,PCKh 达到 98.2%,超过基线堆叠沙漏网络。
- 在 MPII 数据集上,该方法实现 PCKh 91.8%,相比基线堆叠沙漏网络提升 1.8%。
- 在 LIP 数据集上,该方法实现总 PCK 87.4%,优于先前方法如 Hybrid Pose Machine(77.2%)和 BUPTMM-POSE(80.2%)。
- 对抗性训练带来更快收敛速度与更高最终准确率,尤其在 1-stack 和 2-stack 配置中表现显著,且 4-stack 沙漏网络加判别器优于 8-stack 基线模型。
- 即使缺乏图像上下文信息,判别器仍具有效果,表明仅凭姿态结构本身已提供足够线索以区分合理与不合理构型。
- 该方法在学习率衰减至第 60 个周期后表现出更优的稳定性和性能,尤其在深层网络中更为明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。