QUICK REVIEW

[논문 리뷰] CogVLM: Visual Expert for Pretrained Language Models

Weihan Wang, Qingsong Lv|arXiv (Cornell University)|2023. 11. 06.

Multimodal Machine Learning Applications인용 수 76

한 줄 요약

CogVLM은 고정된 사전 학습된 언어 모델에 학습 가능한 시각 전문가를 도입하여 시각-언어 특징의 심층 융합을 가능하게 하고, 17B 매개변수 기반으로 17 cross-modal benchmarks에서 최첨단 결과를 달성합니다.

ABSTRACT

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.

연구 동기 및 목표

현존하는 VLM에서 피상적 정렬 이상으로 시각과 언어 간의 더 깊은 융합 필요성을 제시한다.
고정된 LLM과 상호작용하는 시각 전문 모듈을 제안하여 NLP 기능을 훼손하지 않으면서도 다중 모달 깊은 융합을 가능하게 한다.
학습 가능한 시각 전문가와의 심층 융합이 표준 다중 모달 벤치마크에서 경쟁력 있거나 우수한 성능을 낳는다는 것을 보여준다.
CogVLM 가중치와 학습 데이터를 오픈 소스로 제공하여 시각 이해 연구와 응용을 촉진한다.

제안 방법

각 트랜스포머 레이어에 학습 가능한 시각 전문가 모듈을 추가하고, 이미지 특징과 텍스트 특징이 공존하는 전용 QKV 및 MLP 경로를 사용한다.
ViT 출력을 MLP 어댑터를 통해 언어 모델 특징 공간으로 매핑하고, 긴 이미지 시퀀스를 관리하기 위해 이미지 토큰의 포지션 ID를 공유한다.
이미지-텍스트 어텐션을 포함한 모든 어텐션 연산에서 GPT 스타일의 인과 마스크를 유지하여 자기회귀 생성을 보존한다.
CogVLM-17B를 대규모 이미지-텍스트 데이터(LAION-2B 및 COYO-700M에서 파생)로 두 단계 학습 일정으로 사전학습: 이미지 자막 손실만 먼저 학습, 그다음 혼합 자막 및 지시 표현 바인딩(REC) 목표를 포함하되 시각적 그라운딩 작업에 대한 해상도를 가끔 허용한다.
사전학습 중 Region-Object 정렬을 강화하기 위해 40M 이미지의 명사-상자 주석 데이터를 사용하는 시각 그라운딩 데이터셋을 활용한다.
일반ist 모델 두 가지를 통해 정렬 파인튜닝: 자연어 상호작용용 CogVLM-Chat, 바운딩 박스 기반 과제용 CogVLM-Grounding.
설계 선택의 타당성을 검증하고 과제 성능에 미치는 영향을 판단하기 위해 구성 요소를 제거(ablation)한다(시각 전문가 배치, 초기화, 어텐션 마스킹, EMA).

실험 결과

연구 질문

RQ1각 LLM 레이어에 학습 가능한 시각 전문가를 배치하면 순수 NLP 능력에 해를 끼치지 않으면서 시각 및 언어 특징 간의 더 깊은 융합이 가능해지는가?
RQ2깊은 융합이 자막 생성, VQA, LVLM, 그라운딩 등 다양한 다중 모달 작업에서 얕은 정렬 방법과 어떻게 비교되는가?
RQ3시각 인코더 규모, 어텐션 마스킹, 자기지도 이미지 손실, EMA 등 다중 모달 사전훈련의 효과에 영향을 주는 중요한 요소는 무엇인가?
RQ4CogVLM은 표준 이미지 자막 생성, VQA, LVLM 벤치마크 및 시각 그라운딩 데이터셋에서 최신 모델과 어떻게 비교되는가?
RQ5데이터셋 규모, 사전훈련 데이터 구성, 그라운딩 지도 학습이 다중 모달 일반화에 미치는 효과는 무엇인가?

주요 결과

CogVLM-17B는 이미지 자막 생성, VQA, LVLM, 시각 그라운딩 작업을 포함한 17개 교차 모달 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
학습 가능한 시각 전문가를 활용한 심층 융합은 얕은 융합 기준선(InstructBLIP, MiniGPT-4 등) 대비 다수 벤치마크에서 현저히 우수한 성능을 보인다.
모델은 VQA, TextVQA, OCRVQA, ScienceQA 및 MM-Vet, MMBench, SEED-Bench, LLaVA-Bench, POPE, MMMU 및 MathVista와 같은 LVLM 벤치마크에서도 강력한 성능을 시연한다.
시각 그라운딩 결과는 RefCOCO_val/ test 부분집합, RefCOCO+, RefCOCOg 등 여러 분할에서 SOTA 수준에 도달하며 지역-구문 정렬이 견고함을 강조한다.
시각 전문가를 LLM 가중치로 초기화하고, 인과적 시각 주의 마스크를 사용하고, 이미지 관련 자기지도 학습을 포함하는 등의 Ablation 연구가 성능에 긍정적인 기여를 한다.
CogVLM은 오픈 소스 가중치와 SFT에 사용된 데이터셋을 제공하여 연구자들이 시각-언어 이해의 오픈 기반 위에 구축할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.