QUICK REVIEW

[论文解读] Human Pose Estimation using Deep Consensus Voting

Ita Lifshitz, Ethan Fetaya|arXiv (Cornell University)|Mar 27, 2016

Human Pose and Action Recognition参考文献 17被引用 30

一句话总结

本文提出了一种用于单图人体姿态估计的深度共识投票框架，其中每个图像块对所有关键点位置进行投票，而非直接检测关键点。通过聚合投票并计算基于共识的联合概率，该方法提升了精度——在 MPII 数据集上实现了头部关键点的最先进性能，在 LSP 数据集上也取得了具有竞争力的结果——同时无需依赖固定的图模型，自然地建模了图像相关的部件关系。

ABSTRACT

In this paper we consider the problem of human pose estimation from a single still image. We propose a novel approach where each location in the image votes for the position of each keypoint using a convolutional neural net. The voting scheme allows us to utilize information from the whole image, rather than rely on a sparse set of keypoint locations. Using dense, multi-target votes, not only produces good keypoint predictions, but also enables us to compute image-dependent joint keypoint probabilities by looking at consensus voting. This differs from most previous methods where joint probabilities are learned from relative keypoint locations and are independent of the image. We finally combine the keypoints votes and joint probabilities in order to identify the optimal pose configuration. We show our competitive performance on the MPII Human Pose and Leeds Sports Pose datasets.

研究动机与目标

解决基于关键点检测的姿态估计方法的局限性，如特征利用稀疏和固定、与数据无关的部件关系。
通过利用所有图像区域的密集多目标投票，提升在遮挡和变化情况下的姿态估计鲁棒性。
通过共识投票学习图像相关的联合关键点概率，而非依赖静态的相对位置统计信息。
在 MPII 和 LSP 等基准数据集上实现具有竞争力的性能，且无需大量数据或复杂后处理。
在仅需极少微调的情况下，实现从一个数据集（MPII）到另一个数据集（LSP）的有效泛化。

提出的方法

每个图像块使用深度卷积神经网络（CNN）从局部上下文预测所有 16 个关键点的位置，生成对关键点相对位置的投票。
通过聚合所有图像块的投票生成关键点置信度图，实现密集的、全局的图像监督。
共识投票通过在共享块中心处相乘单个关键点投票得分，计算联合概率，捕捉共现部件的可靠性。
联合概率 $ P(K_i=x, K_j=y) $ 计算为 $ \sum_y P_y(K_i=x) \cdot P_y(K_j=y) $，其中高值表示多个块的一致性。
通过使用学习得到的单变量项和基于共识的二元项，采用顺序能量最小化进行姿态推理。
在测试时使用翻转图像的数据增强策略，提升了在 LSP 数据集中倒置姿态上的性能。

实验结果

研究问题

RQ1与稀疏关键点检测相比，来自局部图像块的密集多目标投票是否能提升关键点检测的准确性？
RQ2跨块的共识投票能否生成有意义的、依赖于图像的联合关键点概率，从而超越固定的数据驱动部件关系？
RQ3所提出的投票框架能否在仅需极少微调的情况下，有效从 MPII 数据集泛化到 LSP 数据集？
RQ4该方法是否能在不依赖迭代优化或复杂图模型的情况下，在 MPII 和 LSP 等具有挑战性的基准数据集上实现最先进性能？
RQ5与标准的 L2 回归相比，使用对数极坐标分桶进行位置预测在鲁棒性和准确性方面表现如何？

主要发现

在 MPII 单人数据集上，模型达到了 85.0% 的平均 PCKh 分数，头部关键点表现达到最先进水平（97.8% PCKh）。
在 LSP 数据集上，模型取得了 84.2% 的 PCP 分数，优于大多数先前方法，并且在未使用扩展 LSP 数据集的情况下，与 Pishchulin 等人的方法性能相当。
模型从 MPII 到 LSP 的泛化效果良好，仅用 1,000 张训练图像进行微调即获得优异结果。
共识投票的使用实现了依赖于图像的联合概率，提升了姿态一致性，超越了固定的相对位置先验。
测试时的图像翻转增强了在 LSP 数据集中倒置姿态上的性能，表明对姿态方向变化具有鲁棒性。
该方法在无需迭代优化或复杂后处理的情况下实现了具有竞争力的性能，主要依赖于投票聚合与共识机制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。