Skip to main content
QUICK REVIEW

[论文解读] FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions

Peisen Zhao, Xiaopeng Zhang|arXiv (Cornell University)|Mar 18, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

FineViT 是从零开始训练的高分辨率视觉编码器,采用密集再描述和多阶段课程,在多模态模型中实现强大的零-shot 与长上下文检索能力。

ABSTRACT

While Multimodal Large Language Models (MLLMs) have experienced rapid advancements, their visual encoders frequently remain a performance bottleneck. Conventional CLIP-based encoders struggle with dense spatial tasks due to the loss of visual details caused by low-resolution pretraining and the reliance on noisy, coarse web-crawled image-text pairs. To overcome these limitations, we introduce FineViT, a novel vision encoder specifically designed to unlock fine-grained perception. By replacing coarse web data with dense recaptions, we systematically mitigate information loss through a progressive training paradigm.: first, the encoder is trained from scratch at a high native resolution on billions of global recaptioned image-text pairs, establishing a robust, detail rich semantic foundation. Subsequently, we further enhance its local perception through LLM alignment, utilizing our curated FineCap-450M dataset that comprises over $450$ million high quality local captions. Extensive experiments validate the effectiveness of the progressive strategy. FineViT achieves state-of-the-art zero-shot recognition and retrieval performance, especially in long-context retrieval, and consistently outperforms multimodal visual encoders such as SigLIP2 and Qwen-ViT when integrated into MLLMs. We hope FineViT could serve as a powerful new baseline for fine-grained visual perception.

研究动机与目标

  • 在多模态模型中迫切需要能够保留细粒度视觉细节的视觉编码器的动机。
  • 提出一个渐进式训练范式,以在高分辨率从零开始解锁细粒度感知。
  • 构建并使用大规模的密集再描述数据集(FineCap-450M)来监督局部(区域级)感知。
  • 在整合到多模态语言模型(MLLMs)时,展示最先进的零-shot 识别与检索能力,尤其在长上下文场景中。

提出的方法

  • 使用原生高分辨率的 ViT-based 编码器(输入 448x448,28 层,0.86B 参数)。
  • 采用三阶段课程:阶段 I 在 256x256 上进行 MIM 初始化,遮蔽率 75%;阶段 II 进行大规模图文对比学习,原生分辨率最高到 448x448;阶段 III 进行与大语言模型对齐的自回归训练,输入分辨率最高可达 1000x1000。
  • 在阶段 II 期间逐步提高输入分辨率和文本上下文长度(64 到 256 个令牌),实现密集监督。
  • 训练并使用 FineCap-450M,这是一个区域级标注的再描述数据集(约 226M 区域描述,覆盖 60 万个类别),以实现细粒度对齐。
  • 使用可训练投影器 g(·) 将视觉特征映射到语言空间,以用于 MLLM 集成和阶段 III 的自回归损失。
  • 与 SigLIP2 及其他基线进行对比,展示在长上下文检索方面的改进以及强健的零-shot 性能。

实验结果

研究问题

  • RQ1密集再描述和高分辨率预训练是否能提升多模态模型的细粒度感知?
  • RQ2阶段性课程(MIM -> 对比学习 -> 与LLM对齐)是否更好地在实现语义对齐的同时保留空间细节?
  • RQ3与最先进基线相比,FineViT 在零-shot 分类和检索(包括长文本检索)上的表现如何?
  • RQ4将 FineCap-450M 的区域级数据整合入 MLLMs 对定位与对地化基准的影响?

主要发现

ModelParamsZero-shot ClassificationZero-shot RetrievalIN-1k valIN v2IN REALCOCO T2ICOCO I2TFLICKR T2IFLICKR I2T
FineViT/140.86B84.275.588.760.780.784.896.7--
  • FineViT 在 ImageNet-1k 的零-shot 分类(Top-1 84.2%)和检索表现强劲(COCO T2I 60.7,I2T 80.7;Flickr3k I2T 96.7)。
  • 在长文本零-shot 检索方面,FineViT 明显优于基线(如 DCI T2I 84.8 对比 SigLIP2 的 66.8,以及 FixCLIP 的 74.2)。
  • 整合入多模态语言模型时,FineViT 在多个任务上优于如 Qwen-ViT、Intern3.5-VL 等多模态编码器,尤其在 OCR、图表理解与对地/计数任务上表现突出。
  • 阶段性消融表明 MIM 为基础打底,对比学习提升通用 VQA 能力,而以 FineCap-450M 驱动的阶段 III 增强了空间感知及区域级任务(OCRBench、CountBenchQA)。
  • FineViT-VL 搭配多种大语言模型时,在通用 VQA、多模态推理、OCR/图表任务以及对地化/计数基准上均保持较强表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。