QUICK REVIEW

[论文解读] Nondiscriminatory Treatment: a straightforward framework for multi-human parsing

Min Yan, Guoshan Zhang|arXiv (Cornell University)|Jan 26, 2021

Natural Language Processing Techniques参考文献 56被引用 4

一句话总结

本文提出了一种名为非歧视性人体解析（Nondiscriminatory Treatment for Human Parsing, NTHP）的新方法，这是一种新颖的端到端、无框框（box-free）框架，将人体及其身体部位视为无差别的、带类别标注的实例。该方法基于共享原型设计统一的掩码预测模块，生成二值掩码，并通过一种新颖的分组后处理步骤将各部位实例与对应的主体人体关联。NTHP在MHP v2.0和PASCAL-Person-Part数据集上均取得了最先进性能，分别在MHP v2.0上达到51.1 AP p50和49.9 PCP50的SOTA结果。

ABSTRACT

Multi-human parsing aims to segment every body part of every human instance. Nearly all state-of-the-art methods follow the "detection first" or "segmentation first" pipelines. Different from them, we present an end-to-end and box-free pipeline from a new and more human-intuitive perspective. In training time, we directly do instance segmentation on humans and parts. More specifically, we introduce a notion of "indiscriminate objects with categorie" which treats humans and parts without distinction and regards them both as instances with categories. In the mask prediction, each binary mask is obtained by a combination of prototypes shared among all human and part categories. In inference time, we design a brand-new grouping post-processing method that relates each part instance with one single human instance and groups them together to obtain the final human-level parsing result. We name our method as Nondiscriminatory Treatment between Humans and Parts for Human Parsing (NTHP). Experiments show that our network performs superiorly against state-of-the-art methods by a large margin on the MHP v2.0 and PASCAL-Person-Part datasets.

研究动机与目标

解决现有两阶段‘先检测后分割’和‘先分割后检测’范式在多人体解析中的局限性。
开发一种更直观、类人化的处理方式，将人体与身体部位均视为带类别标注的实例。
消除对边界框和ROI对齐的依赖，减少特征失真与计算开销。
通过人体与部位实例之间的相互特征共享与原型共享，提升分割精度。
在简化且统一的框架下，实现在基准数据集上的最先进性能。

提出的方法

提出‘无差别带类别对象’的新概念，将人体与身体部位均视为带类别的实例，而非带有语义标签的像素。
引入基于原型的统一掩码预测（UMPP）模块，通过所有人体与部位类别的共享原型线性组合生成二值掩码。
使用特征金字塔网络（FPN）提取多层级特征，并为人体与部位实例预测分别使用不同层级。
采用共享原型头生成一组用于所有类别预测的可学习原型。
设计一种新颖的分组后处理策略，基于空间相似性与特征相似性，将每个部位实例与对应的人体实例关联。
以无框方式端到端训练模型，避免ROI裁剪与对齐操作。

实验结果

研究问题

RQ1将人体与身体部位统一视为类别标注的实例，是否能提升多人体解析性能？
RQ2基于共享原型的掩码预测机制，能否有效处理人体与部位实例的分割任务？
RQ3无框、端到端的框架是否优于依赖边界框或ROI对齐的两阶段流水线？
RQ4一种简单统一的分组策略，能否有效从部位级预测中重建出人体级解析结果？
RQ5所提框架在MHP v2.0与PASCAL-Person-Part等多样化基准数据集上是否具备良好泛化能力？

主要发现

在MHP v2.0验证集上，NTHP取得51.1 AP p50、49.5 AP pvol与49.9 PCP50的性能，分别优于最佳先前方法5.8、2.7与6.1个百分点。
在PASCAL-Person-Part数据集上，NTHP取得47.1 AP rvol，以及在IoU阈值为0.5、0.6与0.7时分别达到53.9、44.7与31.9的AP r，较先前SOTA方法分别提升4.0、5.8、6.4与6.2个百分点。
在MHP v2.0上仅需12个训练周期、在PASCAL-Person-Part上仅需54个训练周期即可达到SOTA结果，且无需测试时数据增强或翻转。
消融实验表明，可变形卷积与更长的训练周期可进一步提升性能，其中在MHP v2.0上36个周期达到最佳结果。
可视化结果表明，NTHP能有效处理遮挡与复杂交互情况，在人群密集场景中仍能正确将部位与对应人体分组。
该方法在不同数据集间具备良好泛化能力，在PASCAL-Person-Part上无需在外部数据集上进行预训练，仍表现出强鲁棒性与优异性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。