QUICK REVIEW

[논문 리뷰] Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce

Devashish Shankar, Sujay Narumanchi|arXiv (Cornell University)|2017. 03. 07.

Advanced Image and Video Retrieval Techniques참고 문헌 12인용 수 60

한 줄 요약

이 논문은 VisNet를 제시합니다. VisNet는 대규모 전자상거래에서 시각 검색 및 추천을 위한 엔드-투-엔드 CNN 기반 시스템으로, triplet ranking으로 학습되었고 Flipkart에서 배치되어 50M 아이템과 2K 쿼리/초를 처리합니다.

ABSTRACT

In this paper, we present a unified end-to-end approach to build a large scale Visual Search and Recommendation system for e-commerce. Previous works have targeted these problems in isolation. We believe a more effective and elegant solution could be obtained by tackling them together. We propose a unified Deep Convolutional Neural Network architecture, called VisNet, to learn embeddings to capture the notion of visual similarity, across several semantic granularities. We demonstrate the superiority of our approach for the task of image retrieval, by comparing against the state-of-the-art on the Exact Street2Shop dataset. We then share the design decisions and trade-offs made while deploying the model to power Visual Recommendations across a catalog of 50M products, supporting 2K queries a second at Flipkart, India's largest e-commerce company. The deployment of our solution has yielded a significant business impact, as measured by the conversion-rate.

연구 동기 및 목표

패션 전자상거래에서 시각적 탐색을 핵심 동인으로 삼고 텍스트 기반 검색과 전통 추천기의 한계를 다루기.
시각 검색과 시각적 추천을 함께 처리하는 통합 엔드-투-엔드 아키텍처를 개발하기.
다단위 시각적 유사성을 포착하는 견고한 이미지 임베딩을 생성하기(저수준에서 고수준 특징까지).
수천만 개 카탈로그 아이템으로 시스템을 확장하고 높은 쿼리 처리량과 낮은 지연을 달성하며 인덱스의 신선도를 보장하기.

제안 방법

VGG-16을 모사한 병렬 얕은 합성곱 계층을 포함하는 트리플릿 기반 깊은 순위 CNN 아키텍처(VisNet)를 사용하여 고수준 및 미세한 세부 정보를 모두 포착합니다.
임의의 카탈로그 이미지 트리플릿과 야생 이미지 트리플릿으로 학습하여 D(q,p) < D(q,n)인 임베딩을 경사호로 학습합니다.
Basic Image Similarity Scorers(BISS)와 사람 검증으로 학습 데이터를 생성하고, 세밀한 구분과 거친 구분을 위해 클래스 내 음수 및 클래스 간 음수를 사용합니다.
자연 이미지에서 객체를 Faster R-CNN으로 로컬라이즈하여 잘려진 영역을 VisNet에 피드하여 실제 사진에서의 시각적 검색을 향상시킵니다.
피처 벡터 서비스, 실시간 수집, 512-D 임베딩에 대한 최근접 이웃 탐색으로 확장 가능한 추천 파이프라인을 프로덕션에 배포합니다.

실험 결과

연구 질문

RQ1패션 전자상거래에서 시각 검색과 시각적 추천에 모두 어울리는 시각적 유사성을 학습하는 통합 딥러닝 모델은 어떻게 가능할까?
RQ2정교한 미세 및 거친 시각적 유사성을 보장하는 학습 데이터 생성 및 트리플릿 샘플링 전략은 무엇인가?
RQ3인터넷 규모(50M 아이템, 높은 수집 속도, 낮은 지연)를 유지하면서 정확도를 유지하는 모델 배포 방법은 무엇인가?
RQ4야생 이미지의 객체 로컬라이제이션이 실제 시나리오의 엔드-투-엔드 시각 검색 성능을 개선하는가?

주요 결과

VisNet은 Exact Street2Shop 데이터세트에서 이전의 최첨단 방법들보다 더 높은 재현율을 달성합니다.
16-layer VGG와 얕은 가지를 포함하고 트리플릿 힌지 손실을 사용하는 VisNet은 Street2Shop에서 제품 카테고리 전반에 걸쳐 재현율을 향상시킵니다(기준 대비 평균 증가).
End-to-end 생산 시스템은 2,000 쿼리/초를 지원하며 100 ms 대기 시간 및 50M 아이템 카탈로그에 대해 30분 인덱스 새로 고침을 제공합니다.
Faster R-CNN을 통한 객체 로컬라이제이션은 수동으로 잘려진 입력과 경쟁 가능한 엔드-투-엔드 성능을 제공하여 사용자 부담을 줄입니다.
k-NN 검색용 임베딩 크기를 4096에서 512로 축소하면 계산 시간이 감소하고 정확도는 약 2% 포인트만 하락합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.