QUICK REVIEW

[论文解读] Simple Baselines for Human Pose Estimation and Tracking

Bin Xiao, Haiping Wu|arXiv (Cornell University)|Apr 17, 2018

Human Pose and Action Recognition参考文献 23被引用 118

一句话总结

论文提出简单且强大的单帧人体姿态估计基线和视频中多人体姿态跟踪，利用轻量级的反卷积头和基于光流的跟踪实现了最先进的结果。

ABSTRACT

There has been significant progress on pose estimation and increasing interests on pose tracking in recent years. At the same time, the overall algorithm and system complexity increases as well, making the algorithm analysis and comparison more difficult. This work provides simple and effective baseline methods. They are helpful for inspiring and evaluating new ideas for the field. State-of-the-art results are achieved on challenging benchmarks. The code will be available at https://github.com/leoxiaobin/pose.pytorch.

研究动机与目标

研究简单的头部设计结合反卷积是否能为多人体姿态估计产生具有竞争力的热图。
开发一个实用的基于光流的跟踪管线，通过光流传播关节点并使用基于流的相似性进行数据关联。
在 COCO 上进行单帧姿态估计的评估，在 PoseTrack 上进行视频姿态估计与跟踪的评估。
提供消融实验以理解热图分辨率、骨干网络深度、输入尺寸和基于流的组件的影响。

提出的方法

在 ResNet 骨干之上添加一小段反卷积层，将深层特征转换为用于关键点预测的热图。
使用预测热图与高斯平滑的真实热图之间的 MSE 损失进行训练。
在跟踪阶段，使用光流从前一帧传播关节点以生成候选框，并计算基于流的姿态相似性（传播关节点与当前关节点之间的 OKS）。
通过 NMS 将检测框与传播框统一，针对每个统一框估计姿态，并使用基于流的相似性矩阵进行贪婪的 ID 指派。
将跟踪扩展为多帧基于流的相似性，以在遮挡和短暂消失之间建立联系。
提供一个在线推理算法，维护一个包含过去若干帧的历史队列以计算 M_sim 并分配 ID。

实验结果

研究问题

RQ1在不依赖复杂多阶段架构的情况下，简单的在 ResNet 骨干之上叠加的反卷积头能把 COCO 上的姿态估计精度推进到多大程度？
RQ2基于光流的关节点传播与基于流的姿态相似性能否在视频中达到与依赖更复杂管线的最新方法竞争力的姿态跟踪？
RQ3骨干深度、输入分辨率以及反卷积核的选择对姿态估计性能有何影响？
RQ4将关节点传播与检测框整合是否能在具有挑战性的视频场景中提升检测和跟踪的鲁棒性？
RQ5基于流的多帧相似性如何影响 PoseTrack 上的跟踪-检测（Tracking-By-Detection）性能？

主要发现

方法	骨干网络	输入尺寸	AP	AP50	AP75	APm	APl	AR
CMU-Pose	-	-	61.8	84.9	67.5	57.1	68.2	66.5
Mask-RCNN	ResNet-50-FPN	-	63.1	87.3	68.7	57.8	71.4	-
G-RMI [24]	ResNet-101	353×257	64.9	85.5	71.3	62.3	70.0	69.7
CPN [6]	ResNet-Inception	384×288	72.1	91.4	80.0	68.7	77.2	78.5
FAIR* [9]	ResNeXt-101-FPN	-	69.2	90.4	77.0	64.9	76.3	75.2
G-RMI* [9]	ResNet-152	353×257	71.0	87.9	77.7	69.0	75.2	75.8
oks* [9]	-	-	72.0	90.3	79.7	67.6	78.4	77.1
bangbangren* + [9]	ResNet-101	-	72.8	89.4	79.6	68.6	80.0	78.7
CPN + [6,9]	ResNet-Inception	384×288	73.0	91.7	80.9	69.5	78.1	79.0
Ours	ResNet-152	384×288	73.7	91.9	81.1	70.3	80.0	79.0

在 COCO test-dev 上，作者的单一模型基线达到 73.7 的 AP，达到或超过之前的单模型和集成结果。
基于流的跟踪扩展在 PoseTrack 上取得新的最先进成果，MOTA 57.8（ResNet-152，384×288）以及 Leaderboard 条目中的多人体姿态跟踪的 74.6 mAP。
消融实验显示热图分辨率和更大的输入尺寸可以提升 AP；更深的骨干网络提升性能（例如 ResNet-152）。
来自光流的关节点传播显著提升在各种检测器（R-FCN 与 FPN-DCN）和骨干网络上的 mAP 和 MOTA，尤其对较弱的检测器更明显。
基于流的姿态相似性（包括多帧）优于基于边框或基于姿态的相似性，尤其在快速移动或遮挡时。
所提出的基线在 PoseTrack 验证集和测试集上优于若干当代方法，显示出较强的实际性能，且设计更简单。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。