QUICK REVIEW

[논문 리뷰] VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

Jiannan Wu, Muyan Zhong|arXiv (Cornell University)|2024. 06. 12.

Multimodal Machine Learning Applications인용 수 5

한 줄 요약

VisionLLM v2는 지각, 이해 및 생성을 통일하고 다수의 작업 디코더에 연결된 새로운 슈퍼-링크 메커니즘을 통해 수백 개의 비전-언어 작업에 걸친 엔드-투-엔드 학습을 가능하게 하는 엔드-투-엔드 일반ist 멀티모달 LLM이다.

ABSTRACT

We present VisionLLM v2, an end-to-end generalist multimodal large model (MLLM) that unifies visual perception, understanding, and generation within a single framework. Unlike traditional MLLMs limited to text output, VisionLLM v2 significantly broadens its application scope. It excels not only in conventional visual question answering (VQA) but also in open-ended, cross-domain vision tasks such as object localization, pose estimation, and image generation and editing. To this end, we propose a new information transmission mechanism termed "super link", as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios. In addition, to support the diverse range of tasks, we carefully collected and combed training data from hundreds of public vision and vision-language tasks. In this way, our model can be joint-trained end-to-end on hundreds of vision language tasks and generalize to these tasks using a set of shared parameters through different user prompts, achieving performance comparable to task-specific models. We believe VisionLLM v2 will offer a new perspective on the generalization of MLLMs.

연구 동기 및 목표

엔드-투-엔드 일반ist 멀티모달 LLM을 구축하여 텍스트 출력 외의 수십 수백 개의 비전 및 비전-언어 작업을 다룬다.
LLM과 다수의 작업별 디코더를 연결하는 강력한 정보 전달 메커니즘을 도입한다.
공유 매개변수로 광범위한 작업 커버리지를 가능하게 하는 다양한 비전-언어 데이터를 큐레이션하고 공동 학습한다.
지각, 이해 및 생성 작업 전반에서 작업 특화 또는 전문 모델에 대한 경쟁 성능을 입증한다.

제안 방법

루팅 토큰([DET], [POSE], [GEN]) 및 학습 가능한 슈퍼-링크 쿼리를 연결한 슈퍼-링크 메커니즘을 도입하고 이 토큰들을 통해 디코더로 작업 정보를 전송한다.
이미지 인코더 및 영역 인코더, 대형 언어 모델(Vicuna-7B), 작업별 디코더(Grounding DINO, UniPose, Stable Diffusion, InstructPix2Pix) 및 슈퍼-링크 브리지로 구성된 4부문 아키텍처를 사용한다.
LLM을 통해 텍스트 프롬프트를 처리하고 텍스트 특징을 계산하며, 비전 기본 모델을 통해 이미지 특징을 추출하고 시각 프롬트를 융합하여 작업용 영역 임베딩을 얻는다.
세 단계로 학습한다: 멀티모달 사전학습/명령어 튜닝(VisionLLM v2-Chat), 디코더를 포함한 다중 용량 미세조정, 고정 구성요소를 가진 디코더 전용 미세조정.
안정적인 VQA 능력을 유지하면서 엔드-투-엔드 다중 작업 최적화를 가능하게 하는 3단계 학습 파이프라인을 채택한다.

실험 결과

연구 질문

RQ1단일 일반ist MLLM이 수백 개의 비전-언어 작업을 달성할 수 있으며, 작업별 모델과 비슷한 성능을 낼 수 있는가?
RQ2슈퍼-링크 메커니즘이 LLM과 다수의 디코더 간의 엔드-투-엔드 학습 및 효과적인 그래디언트 흐름을 가능하게 하면서 작업 간 충돌을 피하는가?
RQ3다양한 데이터세트 공동 학습이 지각, 이해 및 생성 작업의 성능에 다양한 도메인에서 어떤 영향을 미치는가?

주요 결과

VisionLLM v2-Chat 및 VisionLLM v2는 다수의 벤치마크에서 작업 특화 모델과 경쟁력 있는 성능을 달성한다.
다중모달 대화 벤치마크에서 VisionLLM v2-Chat은 유사한 매개변수 규모에서 일부 베이스라인을 능가한다(예: MMBench-EN/CN에서 +9.7 및 +7.0).
모델은 강력한 영역 인식 및 시각적 상식 추론을 달성하며, 예를 들어 VisionLLM v2-Chat은 미세조정 없이 VCR에서 Q→AR 82.9%에 도달한다.
객체 탐지 및 인스턴스 분할에서 Swin-T를 가진 VisionLLM v2는 COCO에서 56.3 AP_b, 47.8 AP_m으로 다수의 ResNet50 기반 방법을 능가한다.
자세 추정의 경우 VisionLLM v2는 UniPose-T와의 경쟁력을 보이고 CrowdPose 및 AP-10K 데이터셋에서 강력한 성능을 나타낸다.
정성적 결과는 높은 시각적 품질의 생성 및 이중언어 제로샷 생성 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.