Skip to main content
QUICK REVIEW

[論文レビュー] Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao, Yixiong Zou|arXiv (Cornell University)|Mar 18, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

CC-CDFSLは局所パッチとテキスト特徴間のサイクル整合性を導入して、CLIPベースの跨ドメイン少数ショット学習における局所の誤 alignmentを是正し、Semantic Anchorによりパッチレベルの解釈性を改善し、対象ドメイン全体で最先端性能を達成。

ABSTRACT

Cross-Domain Few-Shot Learning (CDFSL) adapts models trained with large-scale general data (source domain) to downstream target domains with only scarce training data, where the research on vision-language models (e.g., CLIP) is still in the early stages. Typical downstream domains, such as medical diagnosis, require fine-grained visual cues for interpretable recognition, but we find that current fine-tuned CLIP models can hardly focus on these cues, albeit they can roughly focus on important regions in source domains. Although current works have demonstrated CLIP's shortcomings in capturing local subtle patterns, in this paper, we find that the domain gap and scarce training data further exacerbate such shortcomings, much more than that of holistic patterns, which we call the local misalignment problem in CLIP-based CDFSL. To address this problem, due to the lack of supervision in aligning local visual features and text semantics, we turn to self-supervision information. Inspired by the translation task, we propose the CC-CDFSL method with cycle consistency, which translates local visual features into text features and then translates them back into visual features (and vice versa), and constrains the original features close to the translated back features. To reduce the noise imported by richer information in the visual modality, we further propose a Semantic Anchor mechanism, which first augments visual features to provide a larger corpus for the text-to-image mapping, and then shrinks the image features to filter out irrelevant image-to-text mapping. Extensive experiments on various benchmarks, backbones, and fine-tuning methods show we can (1) effectively improve the local vision-language alignment, (2) enhance the interpretability of learned patterns and model decisions by visualizing patches, and (3) achieve state-of-the-art performance.

研究の動機と目的

  • CLIPベースの跨ドメイン少数ショット学習において、局所的な視覚テキストのミスアライメントがなぜ起こるかを特定する。
  • 局所パッチとテキスト意味論を整合させる自己教師ありのサイクル一貫性フレームワークを開発する。
  • ノイズを低減しクラス関連パッチに焦点を当てるSemantic Anchorを導入する。
  • パッチレベルの視覚特徴とGrad-CAMヒートマップによる解釈性の向上を実証する。
  • 複数のターゲットドメインベンチマークとバックボーンで最先端の結果を示す。

提案手法

  • Text-to-Image-to-Text(T-I-T)およびImage-to-Text-to-Image(I-T-I)のサイクル経路を提案し、テキスト空間で双方向の局所特徴 groundingを課す。
  • Semantic Anchor機構を用いて視覚特徴を増強・収縮させ、ノイズを低減し意味的に関連するパッチを強調する。
  • 局所パッチの整合性をテキスト空間(L_cyc_txt)と画像空間(L_cyc_img)のサイクル損失で正則化する。
  • L_total = L_CE + lambda1*L_cyc_txt + lambda2*L_cyc_imgとしてサイクル損失を標準のクロスエントロピー損失と統合する。
  • 推論時にはクエリ視覚情報とクラステキスト特徴間のコサイン距離で分類を行い、パッチレベルの整合性を活用する。
  • パッチレベルの意味的類似性とサイクル経路の可視化を通じて解釈性を提供する。

実験結果

リサーチクエスチョン

  • RQ1CLIPを用いた跨ドメイン少数ショット学習において、視覚パッチとテキストの局所的な整合性はどのように崩れるのか?
  • RQ2局所的な視覚特徴とテキスト意味論のサイクル一貫性は局所的な整合性と解釈性を改善できるのか?
  • RQ3セマンティック・アンカー戦略はノイズや分布シフトに対する堅牢性を向上させるのか?
  • RQ4サイクルベースの正則化は多様なターゲットドメインデータセットとバックボーンで最先端の性能を達成するのか?

主な発見

  • CC-CDFSLは複数のターゲットドメインデータセットで強力なベースラインに対して一貫して性能を向上させる。
  • T-I-Tサイクルは、意味的に関連するパッチへの焦点がより強くノイズが減少するため、I-T-Iサイクルより一般に大きな利得を提供する。
  • Semantic Anchorは上位k個のクラス関連パッチを選択することでノイズを減らし、セマンティックドリフトを抑制して堅牢性を向上させる。
  • ヒートマップ分析(Grad-CAM)は、テキスト意味論に導かれた識別領域の局在性を改善している。
  • プロトタイプ分類実験は、サイクル整合正則化を適用した後のビジョンエンコーダの判別力が向上することを示す。
  • 本手法はISIC、ChestX、EuroSAT、CropDiseasesなどのデータセットで最先端または競合的な結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。