[论文解读] CurlingNet: Compositional Learning between Images and Text for Fashion IQ Data
CurlingNet 提出了一种新颖的图像-文本组合模型,用于时尚图像检索,通过两种关键组件——传递(Delivery)滤波器和扫掠(Sweeping)滤波器——来度量图像-文本对之间的语义差异。通过利用通道门控和多模态融合,该模型实现了最先进性能,在 Fashion-IQ 2019 挑战赛中排名第二,测试集上的平均 Recall@50 达到 44.35%。
We present an approach named CurlingNet that can measure the semantic distance of composition of image-text embedding. In order to learn an effective image-text composition for the data in the fashion domain, our model proposes two key components as follows. First, the Delivery makes the transition of a source image in an embedding space. Second, the Sweeping emphasizes query-related components of fashion images in the embedding space. We utilize a channel-wise gating mechanism to make it possible. Our single model outperforms previous state-of-the-art image-text composition models including TIRG and FiLM. We participate in the first fashion-IQ challenge in ICCV 2019, for which ensemble of our model achieves one of the best performances.
研究动机与目标
- 为解决使用自然语言查询在时尚领域实现可控图像检索的挑战。
- 学习有效的图像-文本组合,以捕捉源图像与目标图像之间的语义差异。
- 通过强调目标图像中的查询相关属性来提升检索性能。
- 开发一种可适应用户可调图像检索与推荐系统的模型。
- 在不使用外部数据集的情况下,实现在 Fashion-IQ 基准上的顶级性能。
提出的方法
- 使用协作专家(Collaborative Expert, CE)门控机制,融合来自预训练 CNN 的图像特征与时尚属性嵌入。
- 采用三级文本编码策略:全局(平均池化)、时序感知(双向 GRU)和局部增强(双向 GRU-CNN),以获得丰富的语义表征。
- 引入传递滤波器,基于查询将源图像嵌入在嵌入空间中向候选聚类进行转移。
- 部署扫掠滤波器,通过通道级加法和残差连接,强调查询特定属性来优化目标嵌入。
- 使用哈达玛积和拼接操作进行多模态融合,结合图像与文本特征,支持如 MUTAN 和 MCB 等变体用于集成建模。
- 使用三元组数据(源图像、查询文本、目标图像)在微调数据集(如 fashion-200K 和 fashion-gen)上,通过添加边缘的 softmax 损失进行模型训练。
实验结果
研究问题
- RQ1我们如何有效建模两个图像相对于自然语言查询的语义差异关系?
- RQ2双路径网络架构(传递与扫掠)是否能超越现有组合模型,在属性感知的图像-文本检索中实现性能提升?
- RQ3通道级门控在多大程度上增强了模型聚焦于查询相关视觉属性的能力?
- RQ4在零样本和少样本时尚图像检索设置下,所提模型与 SOTA 方法(如 TIRG 和 FiLM)相比表现如何?
- RQ5在不使用外部数据的情况下,单模型架构能否在 Fashion-IQ 基准上超越集成方法?
主要发现
- CurlingNet 在 Fashion-IQ 测试集上实现了 44.35% 的平均 Recall@50,位列官方挑战赛第二名。
- CurlingNet 的单模型版本在验证集上优于 TIRG 和 FiLM 基线模型,平均 Recall@50 达到 34.36%。
- 集成模型在连衣裙类别上达到 60.09% 的 Recall@50,衬衫类别为 50.20%,上衣类别为 62.98%,展现出在各类别上的强大泛化能力。
- 即使不使用外部数据集,该模型在平均 Recall@50 上仍比官方基线(SUM)高出 15.84 个百分点。
- 定性结果表明,模型能正确检索出与查询属性(如领口覆盖范围、图案)匹配的图像,同时保持源图像的风格。
- 消融实验确认,所提出的传递与扫掠滤波器显著优于简单拼接(Curling-concat)方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。