[论文解读] Matching-CNN Meets KNN: Quasi-Parametric Human Parsing
本文提出了一种准参数化人体解析框架,通过使用匹配卷积神经网络(M-CNN)预测测试图像与其从人工标注语料库中检索到的K近邻(KNN)图像之间的匹配置信度和位移,将参数化学习与非参数化推理相结合。该方法在7,700张图像的数据集上实现了63.58%的F1分数,达到当前最先进性能,通过端到端学习和基于超像素的标签融合实现性能提升。
Both parametric and non-parametric approaches have demonstrated encouraging performances in the human parsing task, namely segmenting a human image into several semantic regions (e.g., hat, bag, left arm, face). In this work, we aim to develop a new solution with the advantages of both methodologies, namely supervision from annotated data and the flexibility to use newly annotated (possibly uncommon) images, and present a quasi-parametric human parsing model. Under the classic K Nearest Neighbor (KNN)-based nonparametric framework, the parametric Matching Convolutional Neural Network (M-CNN) is proposed to predict the matching confidence and displacements of the best matched region in the testing image for a particular semantic region in one KNN image. Given a testing image, we first retrieve its KNN images from the annotated/manually-parsed human image corpus. Then each semantic region in each KNN image is matched with confidence to the testing image using M-CNN, and the matched regions from all KNN images are further fused, followed by a superpixel smoothing procedure to obtain the ultimate human parsing result. The M-CNN differs from the classic CNN in that the tailored cross image matching filters are introduced to characterize the matching between the testing image and the semantic region of a KNN image. The cross image matching filters are defined at different convolutional layers, each aiming to capture a particular range of displacements. Comprehensive evaluations over a large dataset with 7,700 annotated human images well demonstrate the significant performance gain from the quasi-parametric model over the state-of-the-arts, for the human parsing task.
研究动机与目标
- 解决纯参数化模型在新增标签时需要重新训练的局限性,以及非参数化方法在弱匹配信号下缺乏灵活性的问题。
- 开发一个统一框架,在利用标注数据监督的同时,实现对新语义标签和图像的便捷扩展。
- 通过使用跨图像卷积滤波器建模多范围空间位移,提高测试图像与KNN区域之间的匹配可靠性。
- 通过端到端深度学习方法实现直接标签迁移,降低对姿态估计和过分割的依赖。
提出的方法
- 该框架基于图像级特征从人工解析的人体图像语料库中检索KNN图像。
- 对于每个KNN图像,该方法将测试图像与每个语义区域配对,并将配对输入匹配卷积神经网络(M-CNN),以预测匹配置信度和4D空间位移。
- M-CNN使用两条单图像卷积路径进行分层特征学习,并引入一种跨图像卷积路径,配备专用滤波器,以在多个卷积层上建模图像间的匹配关系。
- 跨图像匹配滤波器被插入到Conv2、Conv3、Conv4和Conv5层,以捕捉不同空间尺度和位移范围的匹配特征。
- 基于预测的置信度和位移,将所有KNN区域的标签图转移到测试图像上,然后按每个语义标签融合为概率图。
- 通过基于超像素的平滑步骤对最终解析结果进行优化,以改善边界保持性并减少碎片化。
实验结果
研究问题
- RQ1混合准参数化框架能否有效结合参数化方法与非参数化方法在人体解析中的优势?
- RQ2基于深度学习的匹配网络(M-CNN)能否在准确性和鲁棒性方面优于传统基于特征的匹配方法?
- RQ3在多个卷积层上插入跨图像匹配滤波器,是否相比单层或无跨层设计能提升匹配性能?
- RQ4该方法在姿态变化下以及对小尺寸或稀有语义区域的表现如何?
- RQ5该框架能否在不重新训练整个模型的前提下轻松扩展至新语义标签?
主要发现
- 当使用9个KNN图像时,所提出的M-CNN达到最高的63.58% F1分数,显著优于当前最先进方法。
- 该模型对姿态变化表现出鲁棒性,即使在姿态估计不准确或缺失的情况下,仍能准确分割左臂和右臂。
- 该方法成功检测并分割了小尺寸语义区域,如包、围巾和太阳镜,这些区域常被基线方法(如PaperDoll)所遗漏。
- 消融实验表明,移除跨图像匹配滤波器会使F1分数从62.81%下降至61.53%,证实其在捕捉语义级匹配中的关键作用。
- 基于超像素的平滑处理可提升边界质量;即使不使用该步骤,M-CNN本身性能仍优于先前最先进方法,表明其具备强大的内在标签预测能力。
- 在第一卷积层插入跨图像滤波器会因感受野过小而降低性能,而深层网络中的滤波器因感受野更大、能覆盖完整语义标签而表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。