[論文レビュー] CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion
CompoDiff は、SynthTriplets18M で学習し、4つの CIR ベンチマークでゼロショットの最先端結果を達成しつつ、多様な条件付けに対応できる、拡散ベースのゼロショット構成画像検索(CIR) アプローチを導入します。
This paper proposes a novel diffusion-based model, CompoDiff, for solving zero-shot Composed Image Retrieval (ZS-CIR) with latent diffusion. This paper also introduces a new synthetic dataset, named SynthTriplets18M, with 18.8 million reference images, conditions, and corresponding target image triplets to train CIR models. CompoDiff and SynthTriplets18M tackle the shortages of the previous CIR approaches, such as poor generalizability due to the small dataset scale and the limited types of conditions. CompoDiff not only achieves a new state-of-the-art on four ZS-CIR benchmarks, including FashionIQ, CIRR, CIRCO, and GeneCIS, but also enables a more versatile and controllable CIR by accepting various conditions, such as negative text, and image mask conditions. CompoDiff also shows the controllability of the condition strength between text and image queries and the trade-off between inference speed and performance, which are unavailable with existing CIR methods. The code and dataset are available at https://github.com/navervision/CompoDiff
研究の動機と目的
- CIR を固定テキスト条件の枠を超えて、テキスト、画像、マスクの混在条件をサポートする方向へ動機づける。
- 潜在拡散と classifier-free ガイダンスを活用した、スケーラブルな CIR モデルを開発する。
- データ不足を克服し、CIR モデルの一般化を向上させる SynthTriplets18M を作成する。
- 複数ベンチマークでのゼロショット CIR パフォーマンスを示し、制御可能性と効率を分析する。
提案手法
- 参照画像の埋め込みを条件付き埋め込みの下でターゲット埋め込みへマッピングするために、分類器フリーガイダンスを備えた CLIP 潜在空間の潜在拡散モデルを採用する。
- ステージ1で LAION-2B 上のテキスト対画像潜在拡散モデルを訓練し、ステージ2で SynthTriplets18M および LAION-2B に対して3つのタスク(テキスト対画像変換、マスク付き変換、トリプレットベースの CIR)を微調整する、2段階の訓練を行う。
- クロスアテンションを介して複数の条件モダリティ(テキスト、画像、マスク)を組み込み、推論時には CFG のように、介入ウェイト(w_I、w_T)の柔軟な制御を可能にする。
- 大規模言語モデルと拡散ベースの画像生成を用いてキャプションとプロンプトを変換し、 SynthTriplets18M を合成し、18.8M のトリプレットを作成する。
- 推論時の制御性を有効にして、画像の影響とテキストの影響のバランスを取り、速度と精度のトレードオフのためにサンプリングステップを調整できる。
実験結果
リサーチクエスチョン
- RQ1潜在拡散と分類器フリーガイダンスは、単純なテキストプロンプトを超えた多様な CIR 条件に対応できるか。
- RQ2大規模な合成データセット SynthTriplets18M は、現実世界の複数ベンチマークに対するゼロショット CIR の一般化を強化するか。
- RQ3条件付けの種類(テキスト、ネガティブテキスト、マスク)が CIR の性能と制御性に与える影響は何か。
- RQ4推論速度(サンプリングステップ)は、CompoDiff の CIR 精度とどのようにトレードオフしますか。
主な発見
| 手法 | アーキテクチャ | R@10 | R@50 | R@1 | R_s @1 | mAP@5 | mAP@10 | mAP@25 | R@1 |
|---|---|---|---|---|---|---|---|---|---|
| CLIP + IP2P † | ViT-L | 7.01 | 12.33 | 4.07 | 6.11 | 1.83 | 2.10 | 2.37 | 2.44 |
| Pic2Word † | ViT-L | 24.70 | 43.70 | 23.90 | - | 8.72 | 9.51 | 10.65 | 11.16 |
| SEARLE-OTI † | ViT-L | 27.51 | 47.90 | 24.87 | 53.80 | 10.18 | 11.03 | 12.72 | - |
| SEARLE † | ViT-L | 25.56 | 46.23 | 24.24 | 53.76 | 11.68 | 12.73 | 14.33 | 12.31 |
| ARTEMIS | RN50 | 33.24 | 47.99 | 12.75 | 21.95 | 9.35 | 11.41 | 13.01 | 13.52 |
| Combiner | RN50 | 34.30 | 49.38 | 12.82 | 24.12 | 9.77 | 12.08 | 13.58 | 14.93 |
| CompoDiff | ViT-L | 36.02 | 48.64 | 18.24 | 57.42 | 12.55 | 13.36 | 15.83 | 14.88 |
| CompoDiff ‡ | ViT-L | 37.36 | 50.85 | 19.37 | 59.13 | 12.31 | 13.51 | 15.67 | 15.11 |
| CompoDiff | ViT-G | 39.02 | 51.71 | 26.71 | 64.54 | 15.33 | 17.71 | 19.45 | 15.48 |
- CompoDiff は FashionIQ、CIRR、CIRCO、GeneCIS のベンチマークで新たなゼロショットの最先端を達成。
- SynthTriplets18M で訓練されたモデルは、従来のゼロショット CIR 手法を上回り、いくつかのシナリオでは監視付きベースラインにも匹敵する。
- ネガティブテキスト、マスク、混在条件など多様な条件付けと、再訓練なしで推論時ウェイトを調整することで、制御性をサポート。
- CLIP ベースのテキストエンコーダを強化する(オプションで別の言語モデルエンコーダを追加)と、特に ViT-L 構成で性能が向上する。
- Diffusion steps を減らして推論速度を向上させても、性能の小さな損失で抑えられる。10 ステップは速度と精度のバランスが良好。
- ステージ2 のマルチタスク訓練(テキスト、マスク、トリプレットの目的) は、トリプレット目的のみの場合よりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。