[论文解读] Instance-level Human Parsing via Part Grouping Network
该论文提出了一种无检测器的部件分组网络(PGN),用于实例级人体解析,在统一的端到端框架中联合优化语义部件分割与实例感知边缘检测,实现对多人的单次遍历解析。该方法在 PASCAL-Person-Part 和一个新的包含 38,280 幅多人图像的大规模 CIHP 基准上均取得了最先进性能。
Instance-level human parsing towards real-world human analysis scenarios is still under-explored due to the absence of sufficient data resources and technical difficulty in parsing multiple instances in a single pass. Several related works all follow the "parsing-by-detection" pipeline that heavily relies on separately trained detection models to localize instances and then performs human parsing for each instance sequentially. Nonetheless, two discrepant optimization targets of detection and parsing lead to suboptimal representation learning and error accumulation for final results. In this work, we make the first attempt to explore a detection-free Part Grouping Network (PGN) for efficiently parsing multiple people in an image in a single pass. Our PGN reformulates instance-level human parsing as two twinned sub-tasks that can be jointly learned and mutually refined via a unified network: 1) semantic part segmentation for assigning each pixel as a human part (e.g., face, arms); 2) instance-aware edge detection to group semantic parts into distinct person instances. Thus the shared intermediate representation would be endowed with capabilities in both characterizing fine-grained parts and inferring instance belongings of each part. Finally, a simple instance partition process is employed to get final results during inference. We conducted experiments on PASCAL-Person-Part dataset and our PGN outperforms all state-of-the-art methods. Furthermore, we show its superiority on a newly collected multi-person parsing dataset (CIHP) including 38,280 diverse images, which is the largest dataset so far and can facilitate more advanced human analysis. The CIHP benchmark and our source code are available at http://sysu-hcp.net/lip/.
研究动机与目标
- 为解决在存在多个多样化人体实例的真实场景中进行实例级人体解析的挑战。
- 克服现有“检测-解析”流水线存在的误差累积问题以及检测与解析之间优化不一致的局限性。
- 开发一种统一的端到端框架,联合学习语义部件分割与实例感知边缘检测,以实现更好的表征学习。
- 引入一个大规模、多样化的基准(CIHP),包含 38,280 幅多人图像,以支持高级人体分析研究。
提出的方法
- PGN 将实例级人体解析建模为两个相关子任务:语义部件分割与实例感知边缘检测,并在统一网络中联合训练。
- 共享主干网络学习支持部件级与实例级分组任务的中间特征。
- 两个并行分支分别预测语义部件标签与实例边界(边缘),共享上下文表征。
- 通过利用互补的上下文信息,精炼分支实现分割与边缘检测之间的相互增强。
- 一种高效的实例划分过程基于预测的实例感知边缘对语义部件进行分组,生成最终的实例级结果。
- 该框架通过结合部件分割与边缘检测目标的统一损失函数进行端到端训练。
实验结果
研究问题
- RQ1无检测器的统一网络能否联合优化语义部件分割与实例感知边缘检测,以提升实例级人体解析性能?
- RQ2与独立的检测与解析流水线相比,分割与边缘检测的联合优化在多大程度上减少了误差累积?
- RQ3分割与边缘检测之间的相互精炼在具有挑战性的多人真实场景中能将性能提升到何种程度?
- RQ4所提出的分组算法在从部件与边缘预测生成准确实例级结果方面有多高效?
主要发现
- PGN 在 PASCAL-Person-Part 数据集上达到最先进性能,实例级人体解析的平均 IoU 为 55.8%,OIS 为 46.0%。
- 在新引入的包含 38,280 幅多样化图像的 CIHP 基准上,PGN 达到 55.8% 的平均 IoU 和 46.0% 的 OIS,优于所有先前方法。
- 消融实验表明,与无精炼分支的模型相比,精炼分支使平均 IoU 提升了 2.3%。
- 分组算法显著提升了结果,PGN(无分组)的平均 IoU 降至 32.9%,证明其在最终实例分配中的关键作用。
- 仅边缘检测分支即达到 45.5% 的 ODS,表明即使无分割任务,边缘预测任务也具备强大性能,凸显其鲁棒性。
- 联合训练的统一网络优于单任务模型,证明共享表征学习能同时提升分割与边缘检测性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。