QUICK REVIEW

[论文解读] Style2Vec: Representation Learning for Fashion Items from Style Sets

Hanbit Lee, Jinseok Seol|arXiv (Cornell University)|Aug 14, 2017

Generative Adversarial Networks and Image Synthesis参考文献 16被引用 29

一句话总结

Style2Vec 提出了一种新颖的表示学习框架，通过利用用户创建的风格集合（即协调搭配的服装单品组合）来建模时尚单品的风格，采用受词嵌入启发的类孪生卷积神经网络架构。与基于成对共购买行为的训练方式不同，Style2Vec 在完整穿搭中单品的共现关系上进行训练，从而学习到更丰富、更具上下文感知的风格特征，在风格分类和类比任务中显著优于现有方法。

ABSTRACT

With the rapid growth of online fashion market, demand for effective fashion recommendation systems has never been greater. In fashion recommendation, the ability to find items that goes well with a few other items based on style is more important than picking a single item based on the user's entire purchase history. Since the same user may have purchased dress suits in one month and casual denims in another, it is impossible to learn the latent style features of those items using only the user ratings. If we were able to represent the style features of fashion items in a reasonable way, we will be able to recommend new items that conform to some small subset of pre-purchased items that make up a coherent style set. We propose Style2Vec, a vector representation model for fashion items. Based on the intuition of distributional semantics used in word embeddings, Style2Vec learns the representation of a fashion item using other items in matching outfits as context. Two different convolutional neural networks are trained to maximize the probability of item co-occurrences. For evaluation, a fashion analogy test is conducted to show that the resulting representation connotes diverse fashion related semantics like shapes, colors, patterns and even latent styles. We also perform style classification using Style2Vec features and show that our method outperforms other baselines.

研究动机与目标

解决传统推荐系统依赖稀疏用户评分、难以捕捉细粒度风格关系的局限性。
克服手工设计属性和通用图像特征在建模微妙时尚风格语义方面的不足。
通过建模用户自定义的完整风格集合（即穿搭）中的共现模式，学习有意义且上下文敏感的风格表示。
通过使系统能够基于少量已购单品的共享风格，推荐风格匹配的单品，从而提升时尚推荐效果。
证明从三个或更多单品组成的集合中学习，比成对学习更有效，能够更好地捕捉整体风格语义。

提出的方法

将 Word2Vec 中的分布语义原理适配到时尚单品上，将每个风格集合视为一个“句子”，将单个单品视为“词”。
采用两个独立的 VGG 风格卷积神经网络：一个用于目标单品，另一个用于同一风格集合中的上下文单品。
使用对比损失函数，最大化目标单品嵌入与同一风格集合中上下文单品嵌入平均值之间的相似度。
端到端训练网络，学习反映共享风格属性（如颜色、图案、形状及潜在风格）的单品嵌入。
利用 CNN 的不变性特性，通过将图像输入映射到共享嵌入空间，学习对罕见单品也鲁棒的特征。
将训练好的嵌入网络应用于下游任务，如风格分类和时尚类比测试。

实验结果

研究问题

RQ1在用户创建的风格集合上进行训练的表示学习模型，能否有效捕捉包括颜色、图案、形状和潜在风格在内的多样化时尚语义？
RQ2与基于成对单品共现的学习相比，从完整风格集合（含三个以上单品）中学习是否能获得更优的风格表示？
RQ3所提出的 Style2Vec 模型在捕捉风格语义方面，与 Siamese CNN 和 DCGAN 等最先进方法相比表现如何？
RQ4所学习的单品嵌入是否能有效用于下游任务，如整套穿搭的风格分类？
RQ5通过类比和可视化任务验证，所学习的嵌入在多大程度上反映了人类可理解的时尚概念？

主要发现

Style2Vec 在风格分类任务中达到 61.13% 的准确率，显著优于 Siamese CNN（51.14%）、DCGAN（54.33%）以及在成对数据上训练的 Style2Vec（54.99%）。
即使在性能领先的 DCGAN 模型之上，该模型仍表现更优，表明上下文感知的集合级学习比独立图像特征更能有效捕捉风格语义。
成对版本的 Style2Vec 表现劣于完整模型，证明在三个或以上单品组成的集合中学习关系，比成对学习更有效。
时尚类比测试表明，所学习的嵌入能够捕捉包括颜色、图案、形状和潜在风格在内的多样化语义属性，体现于成功的类比推理能力。
嵌入空间的可视化显示，按风格类型实现有意义的聚类，表明模型学习到了语义一致且可解释的表示。
由于 CNN 的归纳偏置，该模型能有效学习稀有单品的有意义表示，克服了低频单品共现带来的数据稀疏问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。