Skip to main content
QUICK REVIEW

[논문 리뷰] From Pixels to Purchase: Building and Evaluating a Taxonomy-Decoupled Visual Search Engine for Home Goods E-commerce

Cheng Lyu, Jingyue Zhang|arXiv (Cornell University)|2026. 01. 16.
Advanced Image and Video Retrieval Techniques인용 수 0
한 줄 요약

본 논문은 분류 체계와 토폴로지를 분리한 시각 검색 시스템과 LLM 기반 평가 프레임워크를 도입하였으며, Wayfair에 배치해 시각 검색 품질과 사용자 참여를 향상시켰다.

ABSTRACT

Visual search is critical for e-commerce, especially in style-driven domains where user intent is subjective and open-ended. Existing industrial systems typically couple object detection with taxonomy-based classification and rely on catalog data for evaluation, which is prone to noise that limits robustness and scalability. We propose a taxonomy-decoupled architecture that uses classification-free region proposals and unified embeddings for similarity retrieval, enabling a more flexible and generalizable visual search. To overcome the evaluation bottleneck, we propose an LLM-as-a-Judge framework that assesses nuanced visual similarity and category relevance for query-result pairs in a zero-shot manner, removing dependence on human annotations or noise-prone catalog data. Deployed at scale on a global home goods platform, our system improves retrieval quality and yields a measurable uplift in customer engagement, while our offline evaluation metrics strongly correlate with real-world outcomes.

연구 동기 및 목표

  • 분류 체계의 경계가 모호하고 개방형 사용자 의도가 중요한 스타일 주도 도메인에서 시각 검색의 필요성을 제시한다.
  • 현지화와 분류를 분리하여 산업용 시각 검색의 적응성과 확장성을 향상시킨다.
  • 사람의 주석 없이 시각적 유사성과 범주 관련성을 평가하기 위한 LLM을 판단자로 활용하는 평가 프레임워크를 개발한다.
  • 오프라인 지표와 대규모 실서비스에서의 실제 비즈니스 영향력을 통해 시스템의 효과를 입증한다.

제안 방법

  • 클래스에 의존하지 않는 영역 제안과 유사성 검색에 사용되는 통합 임베딩을 사용하는 토폴로지-분리 아키텍처를 제안한다.
  • 세밀한 분류 체계 의존 없이 시각적으로 유사한 상위 클래스에서 YOLOX 기반 객체 탐지기를 학습시켜 영역 제안을 생성한다.
  • 오프라인 인덱싱 및 온라인 검색에 사용되는 강건한 통합 표현을 위해 OpenCLIP 기반 임베딩 모델을 미세조정한다.
  • 다축 불균일 벡터 양자화를 사용하는 Google Vertex AI Vector Search를 이용해 대규모 최신 인덱스를 구축하고 다단계 필터링을 적용한다.
  • 상품화 요구에 맞춘 중복 제거 및 분류 레이블링이 포함된 쇼핑 가능한 갤러리를 생성하기 위한 다단계 응답 정제 파이프라인을 구현한다.
  • 범주 관련성과 시각적 유사성에 대해 질의-결과 쌍을 평가하는 판단자로서의 LLM 프레임워크를 도입하고 일관성 검사를 수행한다.

실험 결과

연구 질문

  • RQ1토 taxonomy-decoupled 객체 탐지기와 단일 임베딩이 토 taxonomy-의존 시스템에 비해 우수한 시각 검색 정확도를 달성할 수 있는가?
  • RQ2LLM 기반 제로샷 평가 프레임워크가 범주 관련성 및 시각적 유사성에 대해 인간 판단과 신뢰할 수 있게 일치하는가?
  • RQ3LLM-판단 프레임워크의 오프라인 지표가 실제 사용자 참여 및 발견 결과와 상관관계가 있는가?
  • RQ4제안된 시스템의 엔드-투-엔드 성능이 실 서비스 환경에서의 상업적 기준에 비해 어떤 차이를 보이는가?

주요 결과

k방법Rel P@kVS P@kSuccess@knDCG@k
1Google Lens86.441.241.11.000
1Class-dependent82.543.543.21.000
1Taxonomy-decoupled94.459.358.91.000
3Google Lens84.537.459.40.947
3Class-dependent82.140.459.10.956
3Taxonomy-decoupled93.654.577.40.950
6Google Lens76.731.466.20.928
6Class-dependent82.138.267.00.932
6Taxonomy-decoupled92.951.185.30.926
  • 토 taxonomy-분리 시스템은 엔드-투-엔드 검색 메트릭에서 Google Lens 및 기존 클래스 의존 시스템을 1k 이미지 규모에서 유의하게 능가한다.
  • 시각적 유사성 정밀도 및 성공률은 k=1,3,6에서 토 taxonomy-분리 접근 방식이 훨씬 높은 것으로 나타났다.
  • LLM-판단 프레임워크는 범주 관련성과 시각적 유사성 모두에서 인간 판단과의 강한 일치를 보여주었다(서열 신뢰도 및 이진 지표).
  • 제품 데이터로 미세조정된 임베딩 모델(OpenCLIP)은 기존 임베딩보다 정확한 제품 검색에 대해 Recall@1 및 Top-1 정확도가 더 높다.
  • Wayfair에서의 실서비스 배치로 PDP 조회율 및 맥락 기반 추천 참여가 증가했고, 합성 대조 분석(eVCD)을 통한 측정 가능한 효과가 나타났다.
  • 시스템은 더 큰 15k 이미지 세트에서도 견고한 성능을 유지하여 일반화가 좋음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.