QUICK REVIEW

[论文解读] From Pixels to Purchase: Building and Evaluating a Taxonomy-Decoupled Visual Search Engine for Home Goods E-commerce

Cheng Lyu, Jingyue Zhang|arXiv (Cornell University)|Jan 16, 2026

Advanced Image and Video Retrieval Techniques被引用 0

一句话总结

论文提出了一种与分类法解耦的视觉检索系统以及基于大语言模型的评估框架，在 Wayfair 部署以提升视觉检索质量与用户参与度。

ABSTRACT

Visual search is critical for e-commerce, especially in style-driven domains where user intent is subjective and open-ended. Existing industrial systems typically couple object detection with taxonomy-based classification and rely on catalog data for evaluation, which is prone to noise that limits robustness and scalability. We propose a taxonomy-decoupled architecture that uses classification-free region proposals and unified embeddings for similarity retrieval, enabling a more flexible and generalizable visual search. To overcome the evaluation bottleneck, we propose an LLM-as-a-Judge framework that assesses nuanced visual similarity and category relevance for query-result pairs in a zero-shot manner, removing dependence on human annotations or noise-prone catalog data. Deployed at scale on a global home goods platform, our system improves retrieval quality and yields a measurable uplift in customer engagement, while our offline evaluation metrics strongly correlate with real-world outcomes.

研究动机与目标

在分类法边界不明确、开放式用户意图重要的风格驱动领域，激发视觉检索的应用需求。
将定位（Localization）与分类（Classification）解耦，以提升工业级视觉检索的适应性与可扩展性。
开发使用大语言模型作为评估者的框架，在无需人工标注的情况下评估视觉相似性与类别相关性。
通过离线指标与大规模线下/上线业务影响来验证系统的有效性。

提出的方法

提出一种分类法解耦架构，使用与类无关的区域建议和统一的嵌入向量进行相似性检索。
在视觉上相似的上位分类（superclasses）上训练基于 YOLOX 的目标检测器，以生成区域建议，从而不依赖于细粒度分类法。
对基于 OpenCLIP 的嵌入模型进行微调，以获得在离线索引与在线检索中使用的鲁棒统一表示。
使用 Google Vertex AI Vector Search 并结合各向异性向量量化，构建大规模、时效性强的索引并实施多阶段过滤。
实现多阶段响应细化流程，生成具有去重和与商品陈列需求对齐的分类标签的可购物画廊。
引入 LLM 作为评判框架，对查询-结果对在类别相关性与视觉相似性方面进行评估，并进行一致性校验。

实验结果

研究问题

RQ1一个与分类法解耦的对象检测器配合统一嵌入，是否能在视觉检索准确性上优于基于分类法的系统？
RQ2基于大语言模型的零-shot 评估框架是否能与人类在类别相关性与视觉相似性方面产生一致判断？
RQ3来自 LLM-作为-评判的离线指标是否与真实世界的用户参与度与发现效果相关？
RQ4在上线生产环境中的端到端性能，与商业基线相比究竟如何？

主要发现

k	Method	Rel P@k	VS P@k	Success@k	nDCG@k
1	Google Lens	86.4	41.2	41.1	1.000
1	Class-dependent	82.5	43.5	43.2	1.000
1	Taxonomy-decoupled	94.4	59.3	58.9	1.000
3	Google Lens	84.5	37.4	59.4	0.947
3	Class-dependent	82.1	40.4	59.1	0.956
3	Taxonomy-decoupled	93.6	54.5	77.4	0.950
6	Google Lens	76.7	31.4	66.2	0.928
6	Class-dependent	82.1	38.2	67.0	0.932
6	Taxonomy-decoupled	92.9	51.1	85.3	0.926

分类法解耦系统在端到端检索指标上显著优于 Google Lens 和遗留的基于类别的系统，针对 1000 张图片的评估表现出色。
在 k=1、3、6 取值下，视觉相似性精度与成功率对分类法解耦方法显著更高。
LLM-作为-评判框架在类别相关性和视觉相似性两方面与人类判断有较强的一致性（序相关性与二元指标）。
对产品数据进行微调的嵌入模型（OpenCLIP）在精确产品检索的 Recall@1 与 Top-1 准确度上，优于遗留嵌入。
Wayfair 的上线部署带来 PDP 浏览率与上下文推荐参与度的提升，并通过合成对照分析（eVCD）量化了增益。
该系统在更大规模的 1.5 万张图片集上保持稳健性能，表明良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。