[论文解读] DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval
DQE-CIR 学习具有辨识度且考虑属性的查询嵌入,具备可学习的属性权重和目标相对负采样,提升细粒度 CIR 性能并减少相关性抑制与语义混淆。
Composed image retrieval (CIR) addresses the task of retrieving a target image by jointly interpreting a reference image and a modification text that specifies the intended change. Most existing methods are still built upon contrastive learning frameworks that treat the ground truth image as the only positive instance and all remaining images as negatives. This strategy inevitably introduces relevance suppression, where semantically related yet valid images are incorrectly pushed away, and semantic confusion, where different modification intents collapse into overlapping regions of the embedding space. As a result, the learned query representations often lack discriminativeness, particularly at fine-grained attribute modifications. To overcome these limitations, we propose distinctive query embeddings through learnable attribute weights and target relative negative sampling (DQE-CIR), a method designed to learn distinctive query embeddings by explicitly modeling target relative relevance during training. DQE-CIR incorporates learnable attribute weighting to emphasize distinctive visual features conditioned on the modification text, enabling more precise feature alignment between language and vision. Furthermore, we introduce target relative negative sampling, which constructs a target relative similarity distribution and selects informative negatives from a mid-zone region that excludes both easy negatives and ambiguous false negatives. This strategy enables more reliable retrieval for fine-grained attribute changes by improving query discriminativeness and reducing confusion caused by semantically similar but irrelevant candidates.
研究动机与目标
- 提升 CIR 查询嵌入在对比学习之外的辨别性动机。
- 通过强调在修改文本条件下的关键属性,实现对细粒度属性聚焦的检索。
- 缓解由语义相关但非目标图像引起的相关性抑制和语义混淆。
- 提出一种从目标相对中间区域选择信息性负样本的训练方案,以强化排序。
提出的方法
- 以 BLIP-2 作为骨干编码参考图像、修改文本和候选图像。
- 引入可学习属性权重以创建属性感知的子查询(颜色与形状),并将其组合成最终查询嵌入。
- 定义目标相对负采样以基于 Δ-score 分布构建中间区域的负样本,并在该区域内仅用一个负样本进行训练。
- 应用带有 KL 散度项的成对学习目标,使组合查询与目标图像对齐,同时与中间区域负样本区分开来。
- 结合辅助的面向属性的子查询,设置专用边界损失以强化颜色与形状的辨别能力。
- 采用区间式训练计划,在嵌入空间演化时刷新目标相对负样本集以保持信息性。
实验结果
研究问题
- RQ1可学习属性权重是否通过在修改文本中强调关键属性来使 CIR 的查询嵌入更具辨识度?
- RQ2目标相对负采样是否提升细粒度判别与降低 CIR 训练中的相关性抑制?
- RQ3在 CIR 中,结合属性特定边距和 KL 引导的单一负样本对学习目标,是否优于标准对比学习目标?
- RQ4在监督与零-shot 设置下,DQE-CIR 在 FashionIQ 和 CIRR 的全局检索与细粒度属性对齐方面表现如何?
主要发现
| Method | Dress R@10 | Dress R@50 | Shirt R@10 | Shirt R@50 | Toptee R@10 | Toptee R@50 | Average R@10 | Average R@50 |
|---|---|---|---|---|---|---|---|---|
| CoSMo | 23.60 | 49.18 | 18.11 | 43.18 | 24.63 | 54.31 | 22.11 | 48.89 |
| MGUR | 23.15 | 48.74 | 18.99 | 43.47 | 25.55 | 52.83 | 22.56 | 48.35 |
| CLIP4Cir | 38.32 | 63.90 | 44.31 | 65.41 | 47.27 | 70.98 | 43.30 | 66.76 |
| Bi-BLIP4CIR | 39.12 | 62.92 | 39.21 | 62.81 | 44.37 | 67.06 | 40.90 | 64.26 |
| CoVR | 44.55 | 69.03 | 48.43 | 67.42 | 52.60 | 74.31 | 48.53 | 70.25 |
| SPRC | 45.71 | 70.00 | 51.37 | 72.77 | 55.48 | 77.46 | 50.86 | 73.41 |
| QuRe | 46.80 | 69.81 | 53.53 | 72.87 | 57.47 | 77.77 | 52.60 | 73.48 |
| DQE-CIR | 48.47 | 71.09 | 55.94 | 74.62 | 59.38 | 79.12 | 54.60 | 75.94 |
- DQE-CIR 在 FashionIQ 的连贯表现优于现有 CIR 方法,覆盖 Dress、Shirt 与 Toptee 类别(在 Recall@10 和 Recall@50 方面居于前列)。
- 在 FashionIQ 上,DQE-CIR 的平均 Recall@10 与 Recall@50 高于以往方法,表明整体检索与属性对齐更强。
- 在 CIRR 上,DQE-CIR 在所有评测等级达到最高的 Recall@K,并在 Recall 子集@K 方面表现最好,显示在视觉相似且目标判别性强的子集中的鲁棒性。
- 消融式分析(如描述所示)证实目标相对负样本与属性感知成对学习对可靠 CIR 的重要性。
- 定性结果显示 DQE-CIR 能比基线更准确地检索满足多属性修改的图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。