Skip to main content
QUICK REVIEW

[論文レビュー] Powerful Teachers Matter: Text-Guided Multi-view Knowledge Distillation with Visual Prior Enhancement

Xin Zhang, Jianyang Xu|arXiv (Cornell University)|Mar 25, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

TMKD は dual-modality 教師(多視点視覚教師と CLIP のテキスト教師)を用いて RGB、エッジ、ハイ周波数視の適応融合を指導し、5 データセット全体でベースラインより最大 4.49% の向上を達成します。

ABSTRACT

Knowledge distillation transfers knowledge from large teacher models to smaller students for efficient inference. While existing methods primarily focus on distillation strategies, they often overlook the importance of enhancing teacher knowledge quality. In this paper, we propose Text-guided Multi-view Knowledge Distillation (TMKD), which leverages dual-modality teachers, a visual teacher and a text teacher (CLIP), to provide richer supervisory signals. Specifically, we enhance the visual teacher with multi-view inputs incorporating visual priors (edge and high-frequency features), while the text teacher generates semantic weights through prior-aware prompts to guide adaptive feature fusion. Additionally, we introduce vision-language contrastive regularization to strengthen semantic knowledge in the student model. Extensive experiments on five benchmarks demonstrate that TMKD consistently improves knowledge distillation performance by up to 4.49\%, validating the effectiveness of our dual-teacher multi-view enhancement strategy. Code is available at https://anonymous.4open.science/r/TMKD-main-44D1.

研究の動機と目的

  • 教師知識の質を高めることによって知識蒸留を動機づける。
  • 双模態の教師を活用して視覚 priors とセマンティックガイダンスを通じてより豊かな監視信号を提供する。
  • 視覚教師を多視点入力(RGB、エッジ強調、ハイ周波数)と CLIP ベースのプロンプトによる適応融合で強化する。
  • 視聴言語間コントラスト正規化を導入して生徒表現をテキスト埋め込みと整列させる。
  • 5 ベンチマーク全体で最先端 KD 手法を一貫して改善する。

提案手法

  • 単一の RGB 画像から多視点入力を構築する:RGB、エッジ強調、ハイ周波数視。
  • 共有視覚教師を用いてすべての視点から特徴を抽出し、CLIP ベースの prior-aware プロンプトで生成された意味的重みと融合する。
  • 摂動を伴う特徴レベル蒸留と KL 発散、ソフト化した出力を用いるロジットレベル蒸留、CLIP テキスト埋め込みを意味的アンカーとして用いるテキスト誘導の CRD を実装する。
  • 結合損失で学習する:L_all = alpha * L_logit + beta * L_CRD + gamma * L_feat。
  • CLIP ベースの融合を導く「クラスの写真」「クラスのエッジ強調画像」「クラスのハイ周波数強調画像」といったビュー固有プロンプトを採用する。

実験結果

リサーチクエスチョン

  • RQ1視覚 priors と意味的ガイダンスを組み合わせたデュアル教師 KD フレームワークは生徒の学習を改善できるか。
  • RQ2CLIP プロンプトに guided な多視点特徴の適応融合は単なる平均化より良い表現を生み出すか。
  • RQ3特徴レベル、ロジットレベル、テキスト誘導のコントラスト損失は蒸留性能にどのような影響を与えるか。

主な発見

  • TMKD はさまざまな教師–生徒ペアで CUB-200 に対し最先端の KD 手法を最大 4.49% 向上させる。
  • 5 データセット(CIFAR-100、RAF-DB、DTD、Stanford Dogs、CUB-200)全体で一貫した利得を観測。
  • 多視点入力と適応融合は RGB のみまたは単純な平均化より優れており、RGB+Edge+HF が CUB-200 で最良のアブレーション利得 2.82% を達成。
  • 3 種の蒸留損失(L_logit、L_feat、L_CRD)すべてが最良の性能に寄与し、それらを組み合わせると最高精度を達成。
  • TMKD はアーキテクチャ横断の一般化を示し、CATKD や TeKAP と組んだときに ResNet ベースおよび軽量 VGG8 生徒の両方を改善。
  • 可視化分析は CATKD+TMKD が CATKD 単独と比較してより焦点を絞った注意とより緊密な特徴分布を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。