[論文レビュー] Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce
本論文は VisNet を提案する。エンドツーエンドの CNN ベースシステムで、大規模な視覚検索と推奨を実現する。Triplet ranking で訓練され、Flipkart で 50M items and 2K queries per second を処理するようにデプロイされている。
In this paper, we present a unified end-to-end approach to build a large scale Visual Search and Recommendation system for e-commerce. Previous works have targeted these problems in isolation. We believe a more effective and elegant solution could be obtained by tackling them together. We propose a unified Deep Convolutional Neural Network architecture, called VisNet, to learn embeddings to capture the notion of visual similarity, across several semantic granularities. We demonstrate the superiority of our approach for the task of image retrieval, by comparing against the state-of-the-art on the Exact Street2Shop dataset. We then share the design decisions and trade-offs made while deploying the model to power Visual Recommendations across a catalog of 50M products, supporting 2K queries a second at Flipkart, India's largest e-commerce company. The deployment of our solution has yielded a significant business impact, as measured by the conversion-rate.
研究の動機と目的
- ファッションeコマースにおける視覚的発見をコアなドライバーとして位置づけ、テキストベース検索や従来のレコメンダーの限界に対処する。
- 視覚検索と視覚的推奨を共同で扱う統一的なエンドツーエンドアーキテクチャを開発する。
- 低~高レベルの視覚的類似性を捉える頑健な画像埋め込みを生成する。
- システムを tens of millions of catalog items に対してスケールさせ、クエリスループと低遅延を確保する。インデックスの新鮮さを保証する。
提案手法
- 高レベルおよび細かなディテールを同時に捉える、VGG-16 を模した並列の浅い畳み込みレイヤを備えた triplet-based deep ranking CNN アーキテクチャ(VisNet)を使用する。
- カタログ画像の triplet および wild image triplet を用いて、D(q,p) < D(q,n) となる埋め込みを学習する hinge loss を適用する。
- Basic Image Similarity Scorers (BISS) と人間による審査を用いてトレーニングデータを生成し、細かい区別には同クラス内ネガティブ、粗い区別には異クラスネガティブを使用する。
- Wild 画像の物体を Faster R-CNN で局所化し、切り出した領域を VisNet に入力して、実世界の写真における視覚検索を改善する。
- 特徴ベクトルサービス・リアルタイム取り込み・512-D 埋め込みに対する最近傍検索を用いたスケール可能な推奨のためのプロダクションパイプラインをデプロイする。
実験結果
リサーチクエスチョン
- RQ1統一的な深層学習モデルは、ファッションeコマースにおける視覚検索と視覚的推奨の両方に適した視覚的類似性をどのように学習できるか。
- RQ2どのようなトレーニングデータ生成と triplet サンプリング戦略が、細かな視覚的類似性と粗い類似性の両方を堅牢に得られるか。
- RQ350M アイテム・高い取り込み率・低遅延を維持しつつ、インターネット規模でのデプロイを可能にするにはどうすればよいか。
- RQ4wild 画像のオブジェクト局在化は、実世界のシナリオにおけるエンドツーエンドの視覚検索の性能を改善するか。
主な発見
| Model | Tops | Dresses | Outerwear | Skirts | Pants | Leggings | (Average) | |
|---|---|---|---|---|---|---|---|---|
| AlexNet (F.T. Similarity) | 14.4 | 22.2 | 9.3 | 11.6 | 14.6 | 14.5 | ? | |
| F.T. Similarity (Kiapour) | 38.1 | 37.1 | 21.0 | 54.6 | 29.2 | 22.1 | ? | |
| R. Contrastive & Softmax (Wang 2016) | 48.0 | 56.9 | 20.3 | 50.8 | 22.3 | 15.9 | ? | |
| VisNet (best) | 60.1 | 58.3 | 40.6 | 66.9 | 29.9 | 30.7 | ? | |
| VisNet-NoShallow | 52.91 | 54.8 | 34.7 | 66.0 | 31.8 | 21.2 | ? | |
| VisNet-AlexNet | 59.5 | 60.7 | 43.0 | 70.3 | 30.2 | 30.6 | ? | |
| VisNet-S2S | 62.6 | 61.1 | 43.1 | 71.8 | 31.8 | 32.4 | ? | |
| VisNet-FRCNN | 55.9 | ? | ? | ? | ? | ? | ? |
- VisNet は、Exact Street2Shop データセットにおける従来の最先端手法と比較して高いリコールを達成。
- 16-layer VGG と浅いブランチ、および triplet hinge loss を用いた VisNet は Street2Shop の製品カテゴリ全体でリコールの改善を達成(ベースラインに対する平均的なゲイン)。
- エンドツーエンドの生産システムは 2,000 queries per second、100 ms latency、および 50M アイテムのカタログに対する 30-minute インデックス刷新をサポート。
- Faster R-CNN によるオブジェクト局在化は、手動切り出し入力と同等のエンドツーエンド性能を提供し、ユーザーの負担を軽減。
- k-NN 検索のための埋め込みサイズを 4096 から 512 に縮小することで計算時間を短縮し、精度の低下は約 2% 程度にとどまる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。