QUICK REVIEW

[논문 리뷰] From Pixels to Purchase: Building and Evaluating a Taxonomy-Decoupled Visual Search Engine for Home Goods E-commerce

Cheng Lyu, Jingyue Zhang|arXiv (Cornell University)|2026. 01. 16.

Advanced Image and Video Retrieval Techniques인용 수 0

한 줄 요약

본 논문은 분류 체계와 토폴로지를 분리한 시각 검색 시스템과 LLM 기반 평가 프레임워크를 도입하였으며, Wayfair에 배치해 시각 검색 품질과 사용자 참여를 향상시켰다.

ABSTRACT

Visual search is critical for e-commerce, especially in style-driven domains where user intent is subjective and open-ended. Existing industrial systems typically couple object detection with taxonomy-based classification and rely on catalog data for evaluation, which is prone to noise that limits robustness and scalability. We propose a taxonomy-decoupled architecture that uses classification-free region proposals and unified embeddings for similarity retrieval, enabling a more flexible and generalizable visual search. To overcome the evaluation bottleneck, we propose an LLM-as-a-Judge framework that assesses nuanced visual similarity and category relevance for query-result pairs in a zero-shot manner, removing dependence on human annotations or noise-prone catalog data. Deployed at scale on a global home goods platform, our system improves retrieval quality and yields a measurable uplift in customer engagement, while our offline evaluation metrics strongly correlate with real-world outcomes.

연구 동기 및 목표

분류 체계의 경계가 모호하고 개방형 사용자 의도가 중요한 스타일 주도 도메인에서 시각 검색의 필요성을 제시한다.
현지화와 분류를 분리하여 산업용 시각 검색의 적응성과 확장성을 향상시킨다.
사람의 주석 없이 시각적 유사성과 범주 관련성을 평가하기 위한 LLM을 판단자로 활용하는 평가 프레임워크를 개발한다.
오프라인 지표와 대규모 실서비스에서의 실제 비즈니스 영향력을 통해 시스템의 효과를 입증한다.

제안 방법

클래스에 의존하지 않는 영역 제안과 유사성 검색에 사용되는 통합 임베딩을 사용하는 토폴로지-분리 아키텍처를 제안한다.
세밀한 분류 체계 의존 없이 시각적으로 유사한 상위 클래스에서 YOLOX 기반 객체 탐지기를 학습시켜 영역 제안을 생성한다.
오프라인 인덱싱 및 온라인 검색에 사용되는 강건한 통합 표현을 위해 OpenCLIP 기반 임베딩 모델을 미세조정한다.
다축 불균일 벡터 양자화를 사용하는 Google Vertex AI Vector Search를 이용해 대규모 최신 인덱스를 구축하고 다단계 필터링을 적용한다.
상품화 요구에 맞춘 중복 제거 및 분류 레이블링이 포함된 쇼핑 가능한 갤러리를 생성하기 위한 다단계 응답 정제 파이프라인을 구현한다.
범주 관련성과 시각적 유사성에 대해 질의-결과 쌍을 평가하는 판단자로서의 LLM 프레임워크를 도입하고 일관성 검사를 수행한다.

실험 결과

연구 질문

RQ1토 taxonomy-decoupled 객체 탐지기와 단일 임베딩이 토 taxonomy-의존 시스템에 비해 우수한 시각 검색 정확도를 달성할 수 있는가?
RQ2LLM 기반 제로샷 평가 프레임워크가 범주 관련성 및 시각적 유사성에 대해 인간 판단과 신뢰할 수 있게 일치하는가?
RQ3LLM-판단 프레임워크의 오프라인 지표가 실제 사용자 참여 및 발견 결과와 상관관계가 있는가?
RQ4제안된 시스템의 엔드-투-엔드 성능이 실 서비스 환경에서의 상업적 기준에 비해 어떤 차이를 보이는가?

주요 결과

k	방법	Rel P@k	VS P@k	Success@k	nDCG@k
1	Google Lens	86.4	41.2	41.1	1.000
1	Class-dependent	82.5	43.5	43.2	1.000
1	Taxonomy-decoupled	94.4	59.3	58.9	1.000
3	Google Lens	84.5	37.4	59.4	0.947
3	Class-dependent	82.1	40.4	59.1	0.956
3	Taxonomy-decoupled	93.6	54.5	77.4	0.950
6	Google Lens	76.7	31.4	66.2	0.928
6	Class-dependent	82.1	38.2	67.0	0.932
6	Taxonomy-decoupled	92.9	51.1	85.3	0.926

토 taxonomy-분리 시스템은 엔드-투-엔드 검색 메트릭에서 Google Lens 및 기존 클래스 의존 시스템을 1k 이미지 규모에서 유의하게 능가한다.
시각적 유사성 정밀도 및 성공률은 k=1,3,6에서 토 taxonomy-분리 접근 방식이 훨씬 높은 것으로 나타났다.
LLM-판단 프레임워크는 범주 관련성과 시각적 유사성 모두에서 인간 판단과의 강한 일치를 보여주었다(서열 신뢰도 및 이진 지표).
제품 데이터로 미세조정된 임베딩 모델(OpenCLIP)은 기존 임베딩보다 정확한 제품 검색에 대해 Recall@1 및 Top-1 정확도가 더 높다.
Wayfair에서의 실서비스 배치로 PDP 조회율 및 맥락 기반 추천 참여가 증가했고, 합성 대조 분석(eVCD)을 통한 측정 가능한 효과가 나타났다.
시스템은 더 큰 15k 이미지 세트에서도 견고한 성능을 유지하여 일반화가 좋음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.