Skip to main content
QUICK REVIEW

[論文レビュー] FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions

Peisen Zhao, Xiaopeng Zhang|arXiv (Cornell University)|Mar 18, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

FineViTは、密な再キャプションと多段階のカリキュラムでゼロショット性能と長文文脈検索を強化する高解像度ビジョンエンコーダである。

ABSTRACT

While Multimodal Large Language Models (MLLMs) have experienced rapid advancements, their visual encoders frequently remain a performance bottleneck. Conventional CLIP-based encoders struggle with dense spatial tasks due to the loss of visual details caused by low-resolution pretraining and the reliance on noisy, coarse web-crawled image-text pairs. To overcome these limitations, we introduce FineViT, a novel vision encoder specifically designed to unlock fine-grained perception. By replacing coarse web data with dense recaptions, we systematically mitigate information loss through a progressive training paradigm.: first, the encoder is trained from scratch at a high native resolution on billions of global recaptioned image-text pairs, establishing a robust, detail rich semantic foundation. Subsequently, we further enhance its local perception through LLM alignment, utilizing our curated FineCap-450M dataset that comprises over $450$ million high quality local captions. Extensive experiments validate the effectiveness of the progressive strategy. FineViT achieves state-of-the-art zero-shot recognition and retrieval performance, especially in long-context retrieval, and consistently outperforms multimodal visual encoders such as SigLIP2 and Qwen-ViT when integrated into MLLMs. We hope FineViT could serve as a powerful new baseline for fine-grained visual perception.

研究の動機と目的

  • マルチモーダルモデルで微細な視覚ディテールを保持するビジョンエンコーダの必要性を動機づける。
  • 高解像度で最初から微細な知覚を解放するための段階的トレーニングパラダイムを提案する。
  • ローカル(領域レベル)知覚を監督する大規模密集再キャプションデータセット(FineCap-450M)を構築・活用する。
  • LLMsに組み込んだ場合の最先端ゼロショット認識と検索、特に長文コンテキストに対する性能を示す。

提案手法

  • ネイティブな高解像度ViTベースのエンコーダを使用(入力448x448、28層、0.86Bパラメータ)。
  • 3段階カリキュラムを採用:Stage I 256x256で75%マスキングのMIM初期化;Stage II ネイティブ解像度最大448x448までの大規模な画像-テキスト対比学習;Stage III 高解像度入力1,000x1,000までのLLM整列オートレグレッシブ訓練。
  • Stage II中に入力解像度とテキスト文脈長(64から256トークン)を段階的に増加させ、密な監督を可能にする。
  • 細かな局所対応を可能にする領域レベルの注釈付き再キャプションデータセット(FineCap-450M、約226M領域キャプション、600kカテゴリ)を訓練・活用する。
  • 視覚特徴を言語空間へ写像する学習可能な射影器g(·)を用いてMLLM統合とStage IIIの自-autoregressive損失を実現する。
  • SigLIP2および他のベースラインと比較し、長文コンテキスト検索と強力なゼロショット性能の向上を示す。

実験結果

リサーチクエスチョン

  • RQ1密集再キャプションと高解像度事前学習はマルチモーダルモデルの微細な知覚を改善できるか。
  • RQ2段階的カリキュラム(MIM → 対比学習 → LLM整列)は空間的ディテールをよりよく保持しつつ意味的整合を可能にするか。
  • RQ3FineViTはゼロショット分類と検索、長文検索を含む点で最先端のベンチマークと比較してどの程度性能を発揮するか。
  • RQ4FineCap-450Mの領域レベルデータはMLLMへ統合したとき、局所化とグラウンディングのベンチマークへどのような影響を与えるか。

主な発見

ModelParamsZero-shot ClassificationZero-shot RetrievalIN-1k valIN v2IN REALCOCO T2ICOCO I2TFLICKR T2IFLICKR I2T
FineViT/140.86B84.275.588.760.780.784.896.7--
  • FineViTはゼロショットImageNet-1k分類で競合的な性能(トップ1 84.2%)と強力な検索性能を示す(COCO T2I 60.7, I2T 80.7; Flickr3k I2T 96.7)。
  • 長文テキストのゼロショット検索では、ベースラインを大きく上回り(例:DCI T2I 84.8 vs SigLIP2 66.8、FixCLIP 74.2)。
  • MLLMへ統合した場合、FineViTはQwen-ViTやIntern3.5-VLなどのマルチモーダルエンコーダを複数タスクで上回り、特にOCR、チャート理解、グラウンディング/カウントで優位。
  • 段階的アブレーションにより、MIMが基盤を確立し、対比学習が一般的なVQAを改善し、FineCap-450M駆動のStage IIIが空間知覚と領域レベルタスク(OCRBench、CountBenchQA)を高めることを示す。
  • FineViT-VLは様々なLLMと組み合わせても一般的なVQA、マルチモーダル推論、OCR/チャートタスク、グラウンディング/カウントベンチマークで高い性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。