Skip to main content
QUICK REVIEW

[论文解读] Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce

Devashish Shankar, Sujay Narumanchi|arXiv (Cornell University)|Mar 7, 2017
Advanced Image and Video Retrieval Techniques参考文献 12被引用 60
一句话总结

该论文提出 VisNet——一个端到端的基于 CNN 的系统,用于电商领域的大规模视觉搜索与推荐,采用三元组排序训练,并在 Flipkart 部署以处理 50M 件商品和每秒 2000 次查询。

ABSTRACT

In this paper, we present a unified end-to-end approach to build a large scale Visual Search and Recommendation system for e-commerce. Previous works have targeted these problems in isolation. We believe a more effective and elegant solution could be obtained by tackling them together. We propose a unified Deep Convolutional Neural Network architecture, called VisNet, to learn embeddings to capture the notion of visual similarity, across several semantic granularities. We demonstrate the superiority of our approach for the task of image retrieval, by comparing against the state-of-the-art on the Exact Street2Shop dataset. We then share the design decisions and trade-offs made while deploying the model to power Visual Recommendations across a catalog of 50M products, supporting 2K queries a second at Flipkart, India's largest e-commerce company. The deployment of our solution has yielded a significant business impact, as measured by the conversion-rate.

研究动机与目标

  • 将视觉发现作为时尚电商的核心驱动,解决基于文本的搜索和传统推荐系统的局限性。
  • 开发一个统一的端到端架构,能够同时处理视觉搜索和视觉推荐。
  • 生成鲁棒的图像嵌入,捕捉多层次的视觉相似性(从低级到高级特征)。
  • 将系统扩展到数千万 catalog 项目,拥有高查询吞吐量和低延迟;确保索引的新鲜度。

提出的方法

  • 使用基于三元组的深度排序 CNN 架构(VisNet),其设计参照 VGG-16,并带有并行的浅层卷积层,以同时捕捉高层次和细粒度细节。
  • 在目录图像三元组和野生图像三元组上训练,以通过 hinge loss 学习使 D(q,p) < D(q,n) 的嵌入。
  • 使用 Basic Image Similarity Scorers (BISS) 生成训练数据并经人工审核;在同类内和跨类负样本的对比中实现细粒度与粗粒度的区分。
  • 使用 Faster R-CNN 对野生图像中的对象进行定位,将裁剪后的区域输入 VisNet,以提升现实世界照片中的视觉搜索效果。
  • 部署具备特征向量服务、实时摄取,以及对 512-D 嵌入的最近邻搜索的生产流水线,以实现可扩展的推荐。

实验结果

研究问题

  • RQ1一个统一的深度学习模型如何同时学习适用于时尚电商中的视觉搜索和视觉推荐的视觉相似性?
  • RQ2哪些训练数据生成和三元组采样策略能够产生鲁棒的细粒度与粗粒度的视觉相似性?
  • RQ3如何在互联网规模部署此类模型(50M 件商品、较高的摄取速率、低延迟)同时保持准确性?
  • RQ4对野生图像进行对象定位是否能在实际场景中提升端到端视觉搜索的性能?

主要发现

模型TopsDressesOuterwearSkirtsPantsLeggings(平均值)
AlexNet (F.T. Similarity)14.422.29.311.614.614.5?
F.T. Similarity (Kiapour)38.137.121.054.629.222.1?
R. Contrastive & Softmax (Wang 2016)48.056.920.350.822.315.9?
VisNet (best)60.158.340.666.929.930.7?
VisNet-NoShallow52.9154.834.766.031.821.2?
VisNet-AlexNet59.560.743.070.330.230.6?
VisNet-S2S62.661.143.171.831.832.4?
VisNet-FRCNN55.9??????
  • 与先前的最先进方法相比,VisNet 在 Exact Street2Shop 数据集上实现了更高的召回率。
  • 采用 16 层 VGG 加上浅层分支及三元组 hinge loss 的 VisNet,在 Street2Shop 上的各类产品中实现召回率的提升(相较基线的平均增益)。
  • 端到端生产系统支持每秒 2,000 次查询,延迟 100 ms,50M 项目目录的索引刷新时间为 30 分钟。
  • 通过 Faster R-CNN 的对象定位在端到端性能上与手动裁剪输入相当,减轻用户负担。
  • 将嵌入维度从 4096 降至 512 用于 k-NN 搜索,计算时间减少,准确率仅下降约 2%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。