[论文解读] Associative Embedding: End-to-End Learning for Joint Detection and Grouping
引入关联嵌入以在一个端到端网络中联合执行检测和分组,实现多人人体姿态估计的最新方法,并证明其在实例分割中的适用性。
We introduce associative embedding, a novel method for supervising convolutional neural networks for the task of detection and grouping. A number of computer vision problems can be framed in this manner including multi-person pose estimation, instance segmentation, and multi-object tracking. Usually the grouping of detections is achieved with multi-stage pipelines, instead we propose an approach that teaches a network to simultaneously output detections and group assignments. This technique can be easily integrated into any state-of-the-art network architecture that produces pixel-wise predictions. We show how to apply this method to both multi-person pose estimation and instance segmentation and report state-of-the-art performance for multi-person pose on the MPII and MS-COCO datasets.
研究动机与目标
- 在视觉问题中将检测与分组统一建模为一个任务。
- 学习在单一网络中输出检测结果及分组标识(标签)。
- 实现端到端训练,将检测与分组耦合以提高准确性。
- 展示其在多人人体姿态估计与实例分割中的适用性。
- 表明简单、通用的架构也能支持联合检测和分组,且无需多阶段流水线。
提出的方法
- 引入关联嵌入:每个检测都附带一个标签,指示所属组的身份。
- 预测每像素的检测热力图以及每像素的标签热力图以实现分组。
- 用一个标签损失进行训练,促使同一组的标签相似而不同组的标签不同。
- 使用堆叠式沙漏网络来生成密集的检测和标签热力图。
- 通过匹配具有相似标签值(或跨尺度的向量)的检测来解码分组。
- 应用多尺度评估,并在必要时用单人姿态估计器进行细化以提升准确性。
实验结果
研究问题
- RQ1检测和分组是否能在一个单阶段、端到端的网络中共同学习?
- RQ2在没有真实标签的情况下,应该如何训练网络以产生可靠的分组标签?
- RQ3在多人人体姿态估计和实例分割中应用关联嵌入会带来哪些性能提升?
主要发现
| 数据集 | AP | AP50 | AP75 | AP M | AP L | AR | AR50 | AR75 | AR M | AR L |
|---|---|---|---|---|---|---|---|---|---|---|
| MPII Multi-Person (Our method) | 0.663 | 0.865 | 0.727 | 0.613 | 0.732 | 0.715 | 0.897 | 0.772 | 0.662 | 0.787 |
| MS-COCO test-dev (Our method) | 0.655 | 0.868 | 0.723 | 0.606 | 0.726 | 0.702 | 0.895 | 0.760 | 0.646 | 0.781 |
| MS-COCO test-std (Our method) | 0.655 | 0.868 | 0.723 | 0.606 | 0.726 | 0.702 | 0.895 | 0.760 | 0.646 | 0.781 |
- 在 MPII 多人姿态估计和 MS-COCO 的多人姿态任务上达到最先进的结果。
- 在 MPII 上,我们的方法在多人姿态估计的 AP 指标上高于以往方法。
- 在 MS-COCO 的 test-dev 和 test-std 集上,该方法达到最先进的性能。
- 表明端到端的联合检测与分组在各任务上能够匹配或超越多阶段流水线。
- 显示多尺度评估提升性能,且分组质量与检测准确度相关。
- 提供定性证据表明嵌入标签分离良好,从而实现对分组的直接解码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。