QUICK REVIEW

[论文解读] Conformal Cross-Modal Active Learning

Huy Hoang Nguyen, Cédric Jung|arXiv (Cornell University)|Mar 24, 2026

Machine Learning and Algorithms被引用 0

一句话总结

CCMA 使用一个预训练的视觉–语言模型作为教师，提供经校准的跨模态不确定性用于主动学习，指导仅视觉学生进行多样性感知的样本选择，在多个基准测试中实现更高的数据效率。

ABSTRACT

Foundation models for vision have transformed visual recognition with powerful pretrained representations and strong zero-shot capabilities, yet their potential for data-efficient learning remains largely untapped. Active Learning (AL) aims to minimize annotation costs by strategically selecting the most informative samples for labeling, but existing methods largely overlook the rich multimodal knowledge embedded in modern vision-language models (VLMs). We introduce Conformal Cross-Modal Acquisition (CCMA), a novel AL framework that bridges vision and language modalities through a teacher-student architecture. CCMA employs a pretrained VLM as a teacher to provide semantically grounded uncertainty estimates, conformally calibrated to guide sample selection for a vision-only student model. By integrating multimodal conformal scoring with diversity-aware selection strategies, CCMA achieves superior data efficiency across multiple benchmarks. Our approach consistently outperforms state-of-the-art AL baselines, demonstrating clear advantages over methods relying solely on uncertainty or diversity metrics.

研究动机与目标

通过利用视觉–语言模型（VLM）的多模态知识，降低图像分类的标注成本。
开发一个一致性、跨模态的获取框架，校准教师和学生的不确定性。
通过多样的子池和基于不确定性加权的覆盖策略实现可扩展的样本选择。
在多个基准测试中展示数据效率提升，并分析在何种情况下教师引导最有益。

提出的方法

使用教师–学生设置，固定的 VLM 教师（CLIP）提供文本–图像的 grounding 指导，固定的仅视觉学生（DINOv2）进行预测。
为教师和学生构建一致性预测集，以获得每个样本的分布无关不确定性估计。
在教师与学生后验分布的并集支持内，使用重归一化的 JS 散度计算跨模态分歧。
通过由 CLIP 空间聚类形成的 curated 子池，利用基于不确定性加权的覆盖目标引入多样性感知的最终选择。
通过一个无参数的置信门控在教师与学生的影响之间取得平衡，随着学生改进而自适应。

实验结果

研究问题

RQ1是否可以使用一致性校准将来自 VLM 教师和仅视觉学生的不确定性信号融合用于主动学习？
RQ2跨模态分歧是否能够超越单模态不确定性或基于多样性的 AL 方法提高样本效率？
RQ3选择性子池化和基于不确定性加权的覆盖如何影响数据高效 AL 的可扩展性与准确性？
RQ4在何种条件下教师仍能提供有意义的指导，而当学生应主导获取过程时应如何？

主要发现

CCMA 在 CIFAR100、Food101、DomainNet-Real 的标签高效性和最终准确性方面，一贯地达到或超过最先进的 AL 基线。
经校准的跨模态分歧提供可靠的逐样本不确定性信号，尤其在早期轮次引导高效探索。
CLIP 特征空间中的子池聚类在保留多样性的同时降低了评分成本，使 AL 在不牺牲准确性的情况下实现可扩展。
该方法表明教师–学生错配对探索是有信息量的，但当教师准确度接近 oracle 时，性能趋于稳定，挑战转向覆盖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。