QUICK REVIEW

[論文レビュー] Conformal Cross-Modal Active Learning

Huy Hoang Nguyen, Cédric Jung|arXiv (Cornell University)|Mar 24, 2026

Machine Learning and Algorithms被引用数 0

ひとこと要約

CCMA は事前学習済みのビジョン–言語モデルを教師として活用し、活性学習のための校正されたクロスモーダル不確実性を提供し、多様性を考慮したサンプル選択でビジョンのみの学生を導くことで、複数のベンチマークを横断したデータ効率を向上させる。

ABSTRACT

Foundation models for vision have transformed visual recognition with powerful pretrained representations and strong zero-shot capabilities, yet their potential for data-efficient learning remains largely untapped. Active Learning (AL) aims to minimize annotation costs by strategically selecting the most informative samples for labeling, but existing methods largely overlook the rich multimodal knowledge embedded in modern vision-language models (VLMs). We introduce Conformal Cross-Modal Acquisition (CCMA), a novel AL framework that bridges vision and language modalities through a teacher-student architecture. CCMA employs a pretrained VLM as a teacher to provide semantically grounded uncertainty estimates, conformally calibrated to guide sample selection for a vision-only student model. By integrating multimodal conformal scoring with diversity-aware selection strategies, CCMA achieves superior data efficiency across multiple benchmarks. Our approach consistently outperforms state-of-the-art AL baselines, demonstrating clear advantages over methods relying solely on uncertainty or diversity metrics.

研究の動機と目的

画像分類における注釈コストを、ビジョン–言語モデル（VLM）からのマルチモーダル知識を活用して削減する動機づけ。
教師と学生の不確実性をキャリブレーションする適合的・クロスモーダル取得フレームワークを開発する。
多様なサブプールと不確実性重み付けカバレッジ戦略を通じたスケーラブルなサンプル選択を実現する。
複数のベンチマークでデータ効率の向上を示し、教師の指導が最も有益となる条件を分析する。」],
method e=

提案手法

凍結VLM教師（CLIP）を用いた教師–学生設定を採用し、テキスト–画像に grounded なガイダンスを提供し、凍結されたビジョンのみの学生（DINOv2）を予測に用いる。
教師と学生の両方の適合予測集合を構築して、分布に依存しないサンプルごとの不確実性推定を得る。
教師と学生の後方分布の結合サポート内で renormalized JS 距離を用いてクロスモーダル不一致を計算する。
CLIP空間のクラスタリングで構成されたキュレーション済みサブプール上の不確実性加重カバレッジ目的による多様性を考慮した最終選択を導入する。
学生の改善に応じて適応するパラメータフリーの信頼ゲートを通じて、教師と学生の影響をバランスさせる。

実験結果

リサーチクエスチョン

RQ1VLM 教師とビジョンのみの学生からの不確実性信号を適合的キャリブレーションで統合して、活性学習に活用できるか。
RQ2クロスモーダル不一致は unimodal 不確実性や多様性ベースの AL 手法を超えてサンプル効率を改善するか。
RQ3選択的サブプール化と不確実性重み付けカバレッジは、データ効率の高い AL のスケーラビリティと精度にどのように影響するか。
RQ4教師の指導が有効な条件と、学生が獲得プロセスを支配すべきとなる条件はどこか。

主な発見

CCMA は CIFAR100、Food101、DomainNet-Real のいずれにおいてもラベル効率と最終精度の点で最先端の AL ベースラインと一貫して同等または上回る。
適合されたクロスモーダル不一致は信頼性のあるサンプルごとの不確実性信号を提供し、特に初期ラウンドでの効率的な探索を導く。
CLIP 特徴空間でのサブプールクラスタリングは多様性を維持しつつスコアリングコストを削減し、精度低下なしにスケーラブルな AL を実現する。
教師–学生の不一致は探索に有益である可能性を示す一方、教師の精度がオラクルレベルに近づくとパフォーマンスは停滞し、カバレッジの課題へと移る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。