[논문 리뷰] Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
Vary는 Tiny autoregressive 모델로 새로운 비전 어휘를 생성하고 이를 CLIP-VIT와 융합하여 LVLM의 비전 어휘를 확장하는 두 단계 접근법을 도입합니다. 이는 세밀한 인식(OCR, 문서/차트 이해)을 개선하는 동시에 vanilla 능력을 보존합니다.
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary -- CLIP, which can cover most common vision tasks. However, for some special vision task that needs dense and fine-grained vision perception, e.g., document-level OCR or chart understanding, especially in non-English scenarios, the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose Vary, an efficient and effective method to scale up the vision vocabulary of LVLMs. The procedures of Vary are naturally divided into two folds: the generation and integration of a new vision vocabulary. In the first phase, we devise a vocabulary network along with a tiny decoder-only transformer to produce the desired vocabulary via autoregression. In the next, we scale up the vanilla vision vocabulary by merging the new one with the original one (CLIP), enabling the LVLMs can quickly garner new features. Compared to the popular BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while enjoying more excellent fine-grained perception and understanding ability. Specifically, Vary is competent in new document parsing features (OCR or markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet. Our code will be publicly available on the homepage.
연구 동기 및 목표
- 밀집하거나 비영어 인식 작업을 위한 LVLM의 비전 어휘 병목 현상을 동기 부여하고 해결합니다.
- CLIP 기반 어휘와 함께 새로운 비전 어휘를 생성하고 통합하기 위한 두 단계 접근법을 제안합니다.
- 어휘 스케일링이 핵심 LVLM 기능을 유지하면서 미세한 인식 능력을 향상시킨다는 것을 증명합니다.
제안 방법
- 두 단계 파이프라인: (1) 작은 decoder-only 트랜스포머를 사용해 자동회귀로 학습된 새로운 비전 어휘를 생성; (2) 새로운 어휘를 원래의 CLIP-VIT 어휘와 융합하고 LVLM 학습 중 두 어휘를 모두 고정합니다.
- 새로운 어휘 네트워크를 SAM-ViTDet 특징 위에 컨볼루션 계층으로 구성하여 CLIP-VIT와 모양을 맞추고 256×1024로 펼친 토큰을 생성합니다.
- autoregressive 이미지-텍스트 생성으로 문서 및 차트 데이터(밀집 OCR 및 렌더링)를 양수로, 자연 이미지를 음수로 사용하여 Vary-tiny를 학습합니다.
- 새로운 어휘를 원래 CLIP-VIT 어휘와 병렬화하여 Vary-base에 통합하고, 입력 임베딩 및 LLM을 업데이트하는 동안 고정된 어휘로 LVLM을 학습합니다.
- 문서용 LaTeX 렌더링, 차트 렌더링과 같은 합성 데이터 생성과 GPT-4를 통한 고품질 차트 데이터를 사용하여 Vary-base 학습을 풍부하게 합니다.
실험 결과
연구 질문
- RQ1비전 어휘 스케일링으로 LVLM의 미세한 인식이 CLIP-VIT의 한계를 넘어 향상될 수 있습니까?
- RQ2기존 지식을 덮어쓰지 않으면서 새로운 비전 어휘를 어떻게 효과적으로 생성하고 통합할 수 있을까요?
- RQ3어휘를 확장한 LVLM이 일반 기능을 유지하면서 문서 OCR, 마크다운 변환, 차트 이해에서 더 나은 성능을 보입니까?
주요 결과
- Vary-tiny는 중국어 및 영어 모두에서 밀집 OCR 능력을 달성하며, 편집 거리로는 0.266(중국어) 및 0.197(영어)입니다.
- Vary-base는 영어 순수 문서 OCR에서 Nougat와 일치하고 프롬프트 하에서 마크다운/LaTeX 스타일 변환을 가능하게 합니다.
- 80k SFT 데이터의 Vary-base는 DocVQA에서 78.2 ANLS를 얻고 76.3 검증; 665k SFT 데이터로 ChartQA 평균은 66.1에 도달합니다.
- Qwen-7B를 갖춘 Vary-base는 MMVet 상위 수준 점수 36.2%를 달성하고, 설정에 따라 다른 MMVet 지표에서 38.9–38.7%를 보입니다.
- Vary-base는 비슷한 설정에서 기본 LLaVA-1.5 대비 MMVet 일반 성능을 약 2.4 퍼센트 포인트 향상시킵니다.
- 전반적으로 시각 어휘 확장은 핵심 LVLM 능력을 유지하면서 미세한 인식 능력을 향상시킵니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.