Skip to main content
QUICK REVIEW

[論文レビュー] ZeroDiff++: Substantial Unseen Visual-semantic Correlation in Zero-shot Learning

Zihan Ye, Shreyank N Gowda|arXiv (Cornell University)|Feb 12, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

ZeroDiff++ は拡散ベースの学習とテスト時適応を導入し、ゼロショット学習における視覚–意味的相関を強化して偽りの相関とデータ不足の問題に対応します。拡散拡張、動的インスタンスレベルのセマンティクス、相互学習を伴う多視点識別器、未知クラスのための拡散ベースのテスト時適応/生成を追加します。

ABSTRACT

Zero-shot Learning (ZSL) enables classifiers to recognize classes unseen during training, commonly via generative two stage methods: (1) learn visual semantic correlations from seen classes; (2) synthesize unseen class features from semantics to train classifiers. In this paper, we identify spurious visual semantic correlations in existing generative ZSL worsened by scarce seen class samples and introduce two metrics to quantify spuriousness for seen and unseen classes. Furthermore, we point out a more critical bottleneck: existing unadaptive fully noised generators produce features disconnected from real test samples, which also leads to the spurious correlation. To enhance the visual-semantic correlations on both seen and unseen classes, we propose ZeroDiff++, a diffusion-based generative framework. In training, ZeroDiff++ uses (i) diffusion augmentation to produce diverse noised samples, (ii) supervised contrastive (SC) representations for instance level semantics, and (iii) multi view discriminators with Wasserstein mutual learning to assess generated features. At generation time, we introduce (iv) Diffusion-based Test time Adaptation (DiffTTA) to adapt the generator using pseudo label reconstruction, and (v) Diffusion-based Test time Generation (DiffGen) to trace the diffusion denoising path and produce partially synthesized features that connect real and generated data, and mitigates data scarcity further. Extensive experiments on three ZSL benchmarks demonstrate that ZeroDiff++ not only achieves significant improvements over existing ZSL methods but also maintains robust performance even with scarce training data. Code would be available.

研究の動機と目的

  • 既存の生成的 ZSL メソッドにおける視覚–意味的偽相関を特定・定量化する(特にデータ不足時)。
  • 拡散拡張、動的インスタンスレベルのセマンティクス、相互学習を伴う多視点識別器により Seen クラスの相関を強化する。
  • DiffTTA による拡散ベースのテスト時適応および DiffGen による拡散ベースのテスト時生成を通じて unseen クラスの相関を強化し、実データと生成特徴を繋ぐ。

提案手法

  • 有限データから無限のノイズ特徴を生成する拡散拡張を導入する。
  • インスタンスレベルのセマンティクスを提供する教師付きコントラスト学習(SC)表現を使用する。
  • 敵対的(adversarial)、拡散ベース、表現ベースの三つの識別器を Wasserstein 相互学習とともに用い、生成を導く。
  • Pseudo-label を用いて生成器を適応させる拡散ベースのテスト時適応(DiffTTA)を適用する。
  • 拡散デノイジング経路をたどって部分的に合成特徴を生成する拡散ベースのテスト時生成(DiffGen)を適用する。
  • 様々なデータ条件下で生成的 ZSL を評価する新しいプロトコルを提供する。

実験結果

リサーチクエスチョン

  • RQ1_seen データが不足している場合、既存の生成的 ZSL メソッドにおける偽の視覚–意味的相関はどれくらい普遍的か?
  • RQ2拡散ベースの拡張と多視点識別器は Seen クラスの相関を顕著に生み出し、過適合を減らすことができるか?
  • RQ3DiffTTA および DiffGen は実データと unseen クラスの特徴の整合性を改善し、データ不足を緩和するか?
  • RQ4ZeroDiff++ は複数の ZSL ベンチマークやデータ条件に対してロバストか?

主な発見

  • ZeroDiff++ は、学習データサイズの違いに応じて 3 つの ZSL ベンチマークで新しい最先端の性能を達成。
  • 拡散拡張は有効データの拡張により識別器の過適合を緩和する。
  • SC ベースのインスタンスレベル表現は静的なクラスレベルラベルより豊かなセマンティクスを提供し、生成品質を改善する。
  • 敵対的・拡散・表現識別器間の相互学習は生成の特徴ガイダンスを強化する。
  • DiffTTA および DiffGen は pseudo ラベルへの適応と生成特徴を実テストサンプルへ結びつけることで unseen クラスの特徴整合性を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。