[論文レビュー] DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval
DQE-CIR は学習可能な属性重みとターゲット相対ネガティブサンプリングを用いて、特徴的で属性認識的なクエリ埋め込みを作成し、細粒度 CIR の性能を改善し、関連性の抑制と意味的混乱を軽減する。
Composed image retrieval (CIR) addresses the task of retrieving a target image by jointly interpreting a reference image and a modification text that specifies the intended change. Most existing methods are still built upon contrastive learning frameworks that treat the ground truth image as the only positive instance and all remaining images as negatives. This strategy inevitably introduces relevance suppression, where semantically related yet valid images are incorrectly pushed away, and semantic confusion, where different modification intents collapse into overlapping regions of the embedding space. As a result, the learned query representations often lack discriminativeness, particularly at fine-grained attribute modifications. To overcome these limitations, we propose distinctive query embeddings through learnable attribute weights and target relative negative sampling (DQE-CIR), a method designed to learn distinctive query embeddings by explicitly modeling target relative relevance during training. DQE-CIR incorporates learnable attribute weighting to emphasize distinctive visual features conditioned on the modification text, enabling more precise feature alignment between language and vision. Furthermore, we introduce target relative negative sampling, which constructs a target relative similarity distribution and selects informative negatives from a mid-zone region that excludes both easy negatives and ambiguous false negatives. This strategy enables more reliable retrieval for fine-grained attribute changes by improving query discriminativeness and reducing confusion caused by semantically similar but irrelevant candidates.
研究の動機と目的
- CIR クエリ埋め込みの識別性を、標準的な対照学習を超えて改善する動機づけ。
- 改変テキストに条件付けられた重要属性を強調することにより、細粒度の属性焦点付き検索を可能にする。
- 意味的に関連するがターゲットではない画像によって生じる関連性抑制と意味的混乱を緩和する。
- ターゲット相対の中間ゾーンから情報量の多いネガティブを選択する訓練方式を提案し、ランキングを強化する。
提案手法
- BLIP-2 をバックボーンとして、参照画像・改変テキスト・候補画像をエンコードする。
- 属性認識型のサブクエリ(色と形)を作成するための学習可能属性重みを導入し、それらを最終的なクエリ埋め込みに統合する。
- Δスコア分布に基づく中間ゾーンのネガティブを構築するターゲット相対ネガティブサンプリングを定義し、このゾーン内の単一ネガティブで学習する。
- KL発散項を伴うペアワイズ学習目標を適用し、組み立てられたクエリをターゲット画像と整合させつつ中間ゾーンのネガティブと識別させる。
- 色と形に特化した識別性を強制する専用のマージン損失を持つ補助的属性指向サブクエリを組み込む。
- 埋め込み空間が進化するにつれて情報性を保つよう、ターゲット相対ネガティブセットを刷新する interval-based schedule で訓練する。
実験結果
リサーチクエスチョン
- RQ1改変テキストの重要属性を強調することで、学習可能な属性重みは CIR のより識別的なクエリ埋め込みを生み出すか?
- RQ2ターゲット相対ネガティブサンプリングは細粒度の識別性を改善し、CIR の関連性抑制を減らすか?
- RQ3属性特化のマージンと KL ガイダンスを加えた単一ネガティブペアワイズランキング目標は、CIR における標準的な対照学習目標より優れているか?
- RQ4監視あり・ゼロショットの設定で、FashionIQ および CIRR におけるグローバル検索と細粒度属性整合の両方の観点で DQE-CIR はどの程度性能を発揮するか?
主な発見
| Method | Dress R@10 | Dress R@50 | Shirt R@10 | Shirt R@50 | Toptee R@10 | Toptee R@50 | Average R@10 | Average R@50 |
|---|---|---|---|---|---|---|---|---|
| CoSMo | 23.60 | 49.18 | 18.11 | 43.18 | 24.63 | 54.31 | 22.11 | 48.89 |
| MGUR | 23.15 | 48.74 | 18.99 | 43.47 | 25.55 | 52.83 | 22.56 | 48.35 |
| CLIP4Cir | 38.32 | 63.90 | 44.31 | 65.41 | 47.27 | 70.98 | 43.30 | 66.76 |
| Bi-BLIP4CIR | 39.12 | 62.92 | 39.21 | 62.81 | 44.37 | 67.06 | 40.90 | 64.26 |
| CoVR | 44.55 | 69.03 | 48.43 | 67.42 | 52.60 | 74.31 | 48.53 | 70.25 |
| SPRC | 45.71 | 70.00 | 51.37 | 72.77 | 55.48 | 77.46 | 50.86 | 73.41 |
| QuRe | 46.80 | 69.81 | 53.53 | 72.87 | 57.47 | 77.77 | 52.60 | 73.48 |
| DQE-CIR | 48.47 | 71.09 | 55.94 | 74.62 | 59.38 | 79.12 | 54.60 | 75.94 |
- DQE-CIR は Dress, Shirt, Toptee の各カテゴリにおいて FashionIQ で従来の CIR 手法を一貫して上回り、Recall@10 および Recall@50 が最高となる。
- FashionIQ で DQE-CIR は従来手法より平均 Recall@10 と Recall@50 が高く、全体的な検索力と属性整合性が強化されている。
- CIRR では全評価ランクで Recall@K のトップを獲得し、Best Recall subset@K も達成、視覚的に類似する難易度の高いサブセットでのターゲット識別性が堅牢であることを示している。
- ターゲット相対ネガティブサンプルと属性認識ペアワイズ学習の重要性を示すアブレーション風分析を実施、信頼性の高い CIR のためにはこの要素が不可欠であると確認。
- 定性的結果では、基準法よりも複数属性変更を満たす画像をより正確に検索することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。