Skip to main content
QUICK REVIEW

[论文解读] Looking at Outfit to Parse Clothing

Pongsate Tangseng, Zhipeng Wu|arXiv (Cornell University)|Mar 4, 2017
Fashion and Cultural Textiles参考文献 39被引用 48
一句话总结

本文提出了一种增强的全卷积网络(FCN),通过集成侧路服装编码器以建模服装组合的语义关系,并结合条件随机场(CRF)实现一致的标签分配,从而在无需额外监督的情况下,在Fashionista和CFPD数据集上实现了最先进性能,同时所学习的服装编码器表征支持有效的基于风格的图像检索。

ABSTRACT

This paper extends fully-convolutional neural networks (FCN) for the clothing parsing problem. Clothing parsing requires higher-level knowledge on clothing semantics and contextual cues to disambiguate fine-grained categories. We extend FCN architecture with a side-branch network which we refer outfit encoder to predict a consistent set of clothing labels to encourage combinatorial preference, and with conditional random field (CRF) to explicitly consider coherent label assignment to the given image. The empirical results using Fashionista and CFPD datasets show that our model achieves state-of-the-art performance in clothing parsing, without additional supervision during training. We also study the qualitative influence of annotation on the current clothing parsing benchmarks, with our Web-based tool for multi-scale pixel-wise annotation and manual refinement effort to the Fashionista dataset. Finally, we show that the image representation of the outfit encoder is useful for dress-up image retrieval application.

研究动机与目标

  • 为解决在语义分割中利用更高层级语义和上下文线索对细粒度服装类别进行区分的问题。
  • 通过侧支路服装编码器建模组合偏好(例如,不同时穿着连衣裙和裙子),以提升服装解析性能。
  • 利用CRF提升预测结果的空间与语义一致性,增强标签的一致性。
  • 通过新型基于Web的像素级标注工具,研究标注质量对基准性能的影响。
  • 探索服装编码器内部表征在搭配风格检索中的实用性。

提出的方法

  • 引入一种名为服装编码器的侧支路网络,用于预测一致的服装标签集合,捕捉不同服装之间的组合偏好。
  • 集成全连接CRF层,通过强制实施标签分配的空间与语义一致性,对FCN预测结果进行优化。
  • 使用预训练的FCN对整个网络进行端到端微调,利用有限的标注数据,无需额外监督。
  • 开发基于Web的交互式标注工具,支持多尺度、高分辨率的像素级标注,以提升数据集质量。
  • 从服装编码器中提取256维紧凑表征,用于图像检索任务。
  • 在编码器表征上使用欧氏距离进行检索,并与通用的VGG16 fc7特征作为基线进行比较。

实验结果

研究问题

  • RQ1通过建模服装组合中的语义一致性,侧路服装编码器是否能有效提升服装解析性能?
  • RQ2CRF优化在多大程度上提升了服装解析预测中标签的一致性?
  • RQ3标注质量在多大程度上影响了服装解析数据集的基准性能?
  • RQ4服装编码器的内部表征是否可有效用于基于风格的图像检索?
  • RQ5所提出方法是否在Fashionista和CFPD等公开基准上实现了最先进性能?

主要发现

  • 所提模型在Fashionista和CFPD数据集上均实现了最先进性能,且训练过程中无需额外监督。
  • 模型在训练集与测试集之间表现出显著的性能差距,表明需要更大、更高质量的基准数据集。
  • 使用基于Web的工具对手动精修Fashionista数据集后,标签歧义显著降低,尤其解决了'夹克'与'夹克衫'等相似类别之间的混淆问题。
  • 服装编码器学习到的表征可有效检索语义上相似的搭配,如'夹克+上衣+短裤',即使颜色或纹理不同。
  • 基于服装编码器的检索性能优于通用的VGG16 fc7特征,因其聚焦于服装组合而非背景或颜色等低级外观线索。
  • 服装编码器的内部表征紧凑且适用于时尚相关应用,且无需额外训练成本即可获得。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。