Skip to main content
QUICK REVIEW

[論文レビュー] WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Xudong Yan, Songhe Feng|arXiv (Cornell University)|Feb 26, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

WARM-CATはテスト時の無教師データを用いて多モーダル知識を逐次蓄積し、テキスト・視覚プロトタイプを更新することでCZSLのラベル分布シフトに対処する。ダイナミック優先度キューと適応更新、加えて新しいデータセットと評価を提供。

ABSTRACT

Compositional Zero-Shot Learning (CZSL) aims to recognize novel attribute-object compositions based on the knowledge learned from seen ones. Existing methods suffer from performance degradation caused by the distribution shift of label space at test time, which stems from the inclusion of unseen compositions recombined from attributes and objects. To overcome the challenge, we propose a novel approach that accumulates comprehensive knowledge in both textual and visual modalities from unsupervised data to update multimodal prototypes at test time. Building on this, we further design an adaptive update weight to control the degree of prototype adjustment, enabling the model to flexibly adapt to distribution shift during testing. Moreover, a dynamic priority queue is introduced that stores high-confidence images to acquire visual prototypes from historical images for inference. Since the model tends to favor compositions already stored in the queue during testing, we warm-start the queue by initializing it with training images for visual prototypes of seen compositions and generating unseen visual prototypes using the mapping learned between seen and unseen textual prototypes. Considering the semantic consistency of multimodal knowledge, we align textual and visual prototypes by multimodal collaborative representation learning. To provide a more reliable evaluation for CZSL, we introduce a new benchmark dataset, C-Fashion, and refine the widely used but noisy MIT-States dataset. Extensive experiments indicate that our approach achieves state-of-the-art performance on four benchmark datasets under both closed-world and open-world settings. The source code and datasets are available at https://github.com/xud-yan/WARM-CAT .

研究の動機と目的

  • unseen 属性–対象の組み合わせによるテスト時ラベル空間の分布シフトに対処してCZSLを動機づける。
  • unlabeledデータからのテキスト・視覚モダリティを活用したテスト時知識蓄積フレームワークを開発する。
  • 忘却と待機遅延を緩和しつつプロトタイプを適応的に更新するメカニズムを導入する。
  • 新しいファッション領域のCZSLベンチマーク(C-Fashion)を提供し、MIT-Statesを公正な評価のために改良する。
  • 閉世界および開放世界設定の複数のCZSLベンチマークで最先端の性能を示す。

提案手法

  • 文本プロトタイプのためのプロンプトチューニングを伴うCLIPベースモデルとアダプター調整視覚エンコーダを使用。
  • frozenテキストエンコーダを通じて SeenおよびUnseen組み合わせからテキストプロトタイプを構築。
  • 高信頼度テスト画像のダイナミック優先度キューを維持して、組み合わせごとに視覚プロトタイプを形成。
  • Adaptive更新重みを持つKnowledge Accumulation Modules (KAMs)を導入し、オンラインでテキスト・視覚プロトタイプを更新。
  • SeenテキストプロトタイプをUnseenにマッピングすることでUnseen視覚プロトタイプを生成する、コサイン類似度ベースのマッピング行列を使用。
  • テスト時の予測エントロピーを最小化し、テキスト・視覚プロトタイプ間の多モーダル協調表現学習を適用して整合させる。
  • エントロピー最小化とテキスト・視覚プロトタイプ間の対照学習を組み合わせてエンドツーエンド最適化を図り、効率のために後ろ向き伝播を一部留保する。
Figure 1: At test time , existing methods ( top ) fail to adapt using test images, resulting in biased prediction distributions due to label space shift. By contrast, WARM-CAT ( bottom ) progressively accumulates multimodal knowledge from unsupervised test data, enabling effective adaptation to addr
Figure 1: At test time , existing methods ( top ) fail to adapt using test images, resulting in biased prediction distributions due to label space shift. By contrast, WARM-CAT ( bottom ) progressively accumulates multimodal knowledge from unsupervised test data, enabling effective adaptation to addr

実験結果

リサーチクエスチョン

  • RQ1テスト時の unlabeledデータは、 seen組成を忘却することなく CZSLにおけるラベル分布ギャップを埋める助けになるか。
  • RQ2テキストと視覚プロトタイプを効果的に結合し、テスト時に適応的に更新する方法は。
  • RQ3高信頼度の視覚標本キューが分布シフト下のCZSL改善に与える役割は。
  • RQ4Seen–Unseenテキストマッピングから生成された未見視覚プロトタイプはオープンワールドCZSLの性能を改善するか。
  • RQ5提案された指標とベンチマークは、長尾CZSL設定下の性能をどのように反映するか。

主な発見

  • 4つのCZSLベンチマークで閉世界・開放世界の設定の両方において最先端の性能を達成。
  • テスト時無相監督知識蓄積によるラベル分布シフトの効果的な対処を実証。
  • 暖機開始された優先度キューとテキスト–視覚マッピングによる未見視覚プロトタイプの生成の利点を示す。
  • 新しいC-FashionとMIT-States∗データセットで検証され、長尾分布を含む長尾CZSL評価にも適合することを示す。
Figure 2: Prompt tuning of the text encoder and adapter tuning of the visual encoder during training.
Figure 2: Prompt tuning of the text encoder and adapter tuning of the visual encoder during training.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。