[论文解读] Efficient Object Localization Using Convolutional Networks
本文提出一种级联卷积网络架构,通过联合训练粗粒度热图回归模型与细粒度位置精修模块,提升了人体关节点定位的准确性。该方法恢复了因池化层导致的定位精度损失,在FLIC和MPII数据集上实现了最先进性能,且计算开销极低。
Recent state-of-the-art performance on human-body pose estimation has been achieved with Deep Convolutional Networks (ConvNets). Traditional ConvNet architectures include pooling and sub-sampling layers which reduce computational requirements, introduce invariance and prevent over-training. These benefits of pooling come at the cost of reduced localization accuracy. We introduce a novel architecture which includes an efficient `position refinement' model that is trained to estimate the joint offset location within a small region of the image. This refinement model is jointly trained in cascade with a state-of-the-art ConvNet model to achieve improved accuracy in human joint location estimation. We show that the variance of our detector approaches the variance of human annotations on the FLIC dataset and outperforms all existing approaches on the MPII-human-pose dataset.
研究动机与目标
- 解决卷积网络中由于池化层降低空间分辨率而导致的计算效率与定位精度之间的权衡问题。
- 在不牺牲模型效率或增加推理成本的前提下,提升单目RGB图像中关节点的定位精度。
- 通过引入与粗检测网络级联训练的位置精修模块,恢复池化过程中丢失的细粒度空间细节。
- 在基准数据集(FLIC和MPII-human-pose)上实现最先进性能,同时通过单尺度推理保持实时应用能力。
提出的方法
- 训练一个粗粒度卷积网络,生成表示图像中关节点可能性的低分辨率热图。
- 引入一个级联精修网络,利用粗网络中间卷积层的特征,预测局部区域内关节点的亚像素偏移量。
- 通过包含粗粒度热图回归与细粒度偏移量预测的共享目标函数,联合训练两个网络,实现相互正则化。
- 在训练过程中应用SpatialDropout,以减少过拟合并抑制强而虚假的热图异常响应,提升泛化能力与高精度定位性能。
- 训练时使用多尺度推理,但在测试时启用单尺度推理,实现实时部署的同时仍学习尺度不变性。
- 利用深度卷积网络的层次化特征层次,提取上下文丰富的表征,实现在像素级别的精确定位。
实验结果
研究问题
- RQ1是否可以在不显著增加计算成本的前提下,恢复标准卷积网络中因池化导致的定位精度损失?
- RQ2结合粗粒度热图预测与细粒度偏移量精修的级联架构,是否能提升基准数据集上的关节点定位性能?
- RQ3SpatialDropout在多大程度上改善了泛化能力并减少了热图预测中的异常响应?
- RQ4在原始尺度图像上进行训练的模型,是否仍能在无需测试时尺度归一化的前提下达到最先进性能,表明其具备内在的尺度不变性?
主要发现
- 所提模型在MPII-human-pose数据集上,于0.5归一化距离下的PCKh得分为82.0,优于所有先前方法。
- 在FLIC数据集上,该模型在0.05归一化距离下,手腕关节点的PCK得分为60.4%,显著优于此前最先进方法的55.4%。
- 在未归一化的原始尺度图像上训练的模型,仍可在MPII上达到73.3%的PCKh得分,表明其具备强大的尺度不变性,尽管未进行显式归一化。
- SpatialDropout有效降低了热图异常响应,尤其在手腕等困难关节点的高精度区域表现更优。
- 通过联合训练的级联架构减少了过拟合,提升了泛化能力,表现为在两个数据集的所有关节点上均取得一致性能提升。
- 该模型在FLIC和MPII两个数据集上均实现了最先进结果,报告了当时文献中最高的PCKh与PCK得分。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。