[논문 리뷰] FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions
FineViT는 Dense recaptions로부터 처음부터 학습된 고해상도 비전 인코더로, 다중모달 모델에서 강한 제로샷 및 긴 맥락 검색을 달성한다.
While Multimodal Large Language Models (MLLMs) have experienced rapid advancements, their visual encoders frequently remain a performance bottleneck. Conventional CLIP-based encoders struggle with dense spatial tasks due to the loss of visual details caused by low-resolution pretraining and the reliance on noisy, coarse web-crawled image-text pairs. To overcome these limitations, we introduce FineViT, a novel vision encoder specifically designed to unlock fine-grained perception. By replacing coarse web data with dense recaptions, we systematically mitigate information loss through a progressive training paradigm.: first, the encoder is trained from scratch at a high native resolution on billions of global recaptioned image-text pairs, establishing a robust, detail rich semantic foundation. Subsequently, we further enhance its local perception through LLM alignment, utilizing our curated FineCap-450M dataset that comprises over $450$ million high quality local captions. Extensive experiments validate the effectiveness of the progressive strategy. FineViT achieves state-of-the-art zero-shot recognition and retrieval performance, especially in long-context retrieval, and consistently outperforms multimodal visual encoders such as SigLIP2 and Qwen-ViT when integrated into MLLMs. We hope FineViT could serve as a powerful new baseline for fine-grained visual perception.
연구 동기 및 목표
- 다중모달 모델에서 미세한 시각적 세부 정보를 보존하는 비전 인코더의 필요성을 제기한다.
- 고해상도에서 처음부터 미세한 인지력을 열기 위한 점진적 학습 패러다임을 제안한다.
- 로컬(지역 수준) 인지를 감독하기 위해 대규모 조밀 재캡션 데이터셋(FineCap-450M)을 구축하고 활용한다.
- MLLM에 통합될 때 특히 긴 맥락 시나리오에서 최첨단 제로샷 인식 및 검색을 입증한다.
제안 방법
- 네이티브 고해상도 ViT 기반 인코더를 사용한다(입력 448x448, 28 계층, 0.86B 파라미터).
- 세 단계 커리큘럼 채택: 1단계는 256x256에서 75% 마스킹으로 MIM 초기화; 2단계는 네이티브 해상도 최대 448x448까지의 대규모 이미지-텍스트 대조 학습; 3단계는 고해상도 입력 1,000x1,000까지의 LLM 정렬된 자기회귀 학습.
- 2단계에서 입력 해상도와 텍스트 컨텍스트 길이(64에서 256 토큰) 점진적으로 증가시켜 조밀한 감독을 가능하게 한다.
- 지역 수준으로 주석된 재캡션 데이터셋(FineCap-450M)을 교육 및 활용하여 미세한 정렬을 가능하게 한다(~226M 지역 캡션, 600k 범주).
- MLLM 통합 및 3단계의 자기회귀 손실을 위해 시각 특성을 언어 공간으로 매핑하는 학습 가능한 프로젝터 g(·)를 사용한다.
- SigLIP2와 다른 베이스라인과 비교하여 긴 맥락 검색 향상 및 강한 제로샷 성능을 보인다.
실험 결과
연구 질문
- RQ1조밀 재캡션과 고해상도 사전학습이 다중모달 모델의 미세한 인지력을 향상시키는가?
- RQ2점진적 커리큘럼(MIM -> 대조 학습 -> LLM 정렬)이 공간적 세부 정보를 더 잘 보존하면서 의미 정렬을 가능하게 하는가?
- RQ3최첨단 베이스라인과 비교할 때 제로샷 분류 및 검색, 특히 긴 텍스트 검색에서 FineViT의 성능은 어떤가?
- RQ4MLLM에 통합될 때 FineCap-450M 지역 수준 데이터가 위치 지정 및 그라운딩 벤치마크에 미치는 영향은 무엇인가?
주요 결과
| 모델 | 파라미터 | 제로샷 분류 | 제로샷 검색 | IN-1k 검증 | IN v2 | IN REAL | COCO T2I | COCO I2T | FLICKR T2I | FLICKR I2T |
|---|---|---|---|---|---|---|---|---|---|---|
| FineViT/14 | 0.86B | 84.2 | 75.5 | 88.7 | 60.7 | 80.7 | 84.8 | 96.7 | - | - |
- FineViT는 경쟁력 있는 제로샷 ImageNet-1k 분류(상위 1위 84.2%) 및 강한 검색 성능을 달성한다(COCO T2I 60.7, I2T 80.7; Flickr3k I2T 96.7).
- 긴 텍스트 제로샷 검색에서 FineViT는 베이스라인을 크게 능가한다(예: DCI T2I 84.8 대 SigLIP2의 66.8, FixCLIP의 74.2).
- MLLM에 통합될 때 FineViT는 Qwen-ViT 및 Intern3.5-VL 같은 다중모달 인코더를 여러 작업에서 능가하며, 특히 OCR, 차트 이해, 그라운딩/카운팅에서 두드러진 성능을 보인다.
- 단계별 제거 실험은 MIM이 기초를 확립하고, 대조 학습이 일반 VQA를 향상시키며, FineCap-450M 주도 Stage III가 공간 인지 및 지역 수준 작업(OCRBench, CountBenchQA)을 향상시킴을 보인다.
- 다양한 LLM과 함께한 FineViT-VL은 일반 VQA, 다중모달 추론, OCR/차트 작업, 그리고 그라운딩/카운팅 벤치마크에서 강력한 성능을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.