QUICK REVIEW

[논문 리뷰] VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

Wenhai Wang, Zhe Chen|arXiv (Cornell University)|2023. 05. 18.

Multimodal Machine Learning Applications인용 수 131

한 줄 요약

VisionLLM은 이미지를 외국어로 다루고 LLM 기반의 개방형 디코더를 사용하며 언어 주도 이미지 토크나이저와 통합된 언어 지침을 통해 강한 일반화로 개방형 비전 중심 작업을 수행하고 COCO에서 60% 이상 mAP를 달성하며 비전-언어 작업에서 경쟁력 있는 결과를 얻습니다.

ABSTRACT

Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.

연구 동기 및 목표

자연어 처리에서의 LLM과 유사한 개방형 비전 중심 작업 처리의 필요성을 제시한다.
유연한 커스터마이즈를 위한 비전 작업과 언어 지침을 일치시키는 통합 프레임워크를 제시한다.
언어 인식 토크나이저를 개발하여 언어 인지 가능한 시각 토큰을 생성한다.
지시문으로부터 작업을 실행하는 LLM 기반의 개방형 태스크 디코더를 도입한다.
구성 가능한 상세화로 여러 비전 중심 작업에서 일반화가 가능함을 입증한다.

제안 방법

비전 전용 작업과 비전-언어 작업을 모두 다루는 통합된 언어 지침을 도입한다.
교차 주의와 다중 스케일 트랜스포머를 통해 시각 특징과 언어 프롬프트를 융합하여 M개의 이미지 토큰을 생성하는 언어 주도 이미지 토크나이저를 설계한다.
다양한 작업을 처리하기 위해 LLM(Alpaca-7B with LoRA)을 비전 지향 토큰과 출력 형식을 질의로 취하는 디코딩 스킴으로 확장한다.
개방형 예측을 가능하게 하기 위해 불연속 로컬라이제이션 토큰과 의미 비제한적 클래스 토큰을 추가한다.
두 단계 학습을 수행한다: (i) 고정된 LLM으로 감시가 가능한 탐지에 무작위 카테고리로 시각 백본과 토크나이저를 사전 학습하고, (ii) 작업 간의 통합 감독 하에 공동 학습한다.
LoRA를 활용한 효율적 파인튜닝과 교차 엔트로피 손실을 사용하여 시각 및 언어 출력 모두를 감독한다.

(a) Vision generalist models [ 59 , 61 , 83 ] are constrained by the format of pre-defined tasks.

실험 결과

연구 질문

RQ1LLM 기반의 개방형 디코더가 언어 지시를 통해 다양한 비전 중심 작업에 효과적으로 사용될 수 있는가?
RQ2작업 커스터마이징(대상 객체와 출력 형식)을 특정 작업 헤드 없이도 언어 프롬프트를 통해 어느 정도 제어할 수 있는가?
RQ3언어 주도 이미지 토크나이저가 검출, 분할, 그라운딩, 캡션 생성, VQA 등에서 교차 모달 정합성과 작업 성능에 어떤 영향을 미치는가?
RQ4단일 작업 학습과 다중 작업 학습 간의 트레이드오프는 무엇이며 이를 통합 비전-언어 프레임워크에서 어떻게 관리하는가?
RQ5출력 형식-질의 디코딩이 비전 작업의 효율성과 성능에 어떤 영향을 미치는가?

주요 결과

VisionLLM은 객체 검출, 인스턴스 분할, 시각적 그라운딩, 이미지 캡션 생성, VQA 등 다수의 비전 중심 작업에서 언어 지시를 사용해 강력한 성능을 달성한다.
ResNet-50 백본과 VisionLLM을 결합하면 검출에서 44.6 mAP, 64.0 AP50, 48.1 AP75 및 관련 지표를 달성하는 반면, 더 강력한 InternImage-H 백본을 사용하면 COCO에서 60.2 mAP에 도달하여 최신 검출 모델에 근접하다.
모델은 RefCOCO 검증에서 ResNet-50로 80.6 P@0.5, InternImage-H로 86.7 P@0.5의 강력한 시각적 그라운딩을 시연한다.
이미지 캡션 생성에서 VisionLLM은 백본에 따라 BLEU-4 약 31.0–32.1, CIDEr 약 112–114를 달성하여 비전-언어 베이스라인과의 경쟁력을 보인다.
프레임워크는 세부 조정이 가능하다: 대상 클래스를 최대 80까지 변경하고 출력 포인트 수를 8–24로 다양화하면서도 합리적인 AP 점수를 유지한다.
언어 주도 이미지 토크나이저가 텍스트 인코더(BERT) 및 교차 주의와 함께 작동하여 기존 대안 방법보다 정렬 및 토큰화 성능을 향상시킨다.

(b) Visual prompt tuning [ 26 , 64 , 62 ] are inconsistent with the format of LLMs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.