[논문 리뷰] VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
VisionLLM은 이미지를 외국어로 다루고 LLM 기반의 개방형 디코더를 사용하며 언어 주도 이미지 토크나이저와 통합된 언어 지침을 통해 강한 일반화로 개방형 비전 중심 작업을 수행하고 COCO에서 60% 이상 mAP를 달성하며 비전-언어 작업에서 경쟁력 있는 결과를 얻습니다.
Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
연구 동기 및 목표
- 자연어 처리에서의 LLM과 유사한 개방형 비전 중심 작업 처리의 필요성을 제시한다.
- 유연한 커스터마이즈를 위한 비전 작업과 언어 지침을 일치시키는 통합 프레임워크를 제시한다.
- 언어 인식 토크나이저를 개발하여 언어 인지 가능한 시각 토큰을 생성한다.
- 지시문으로부터 작업을 실행하는 LLM 기반의 개방형 태스크 디코더를 도입한다.
- 구성 가능한 상세화로 여러 비전 중심 작업에서 일반화가 가능함을 입증한다.
제안 방법
- 비전 전용 작업과 비전-언어 작업을 모두 다루는 통합된 언어 지침을 도입한다.
- 교차 주의와 다중 스케일 트랜스포머를 통해 시각 특징과 언어 프롬프트를 융합하여 M개의 이미지 토큰을 생성하는 언어 주도 이미지 토크나이저를 설계한다.
- 다양한 작업을 처리하기 위해 LLM(Alpaca-7B with LoRA)을 비전 지향 토큰과 출력 형식을 질의로 취하는 디코딩 스킴으로 확장한다.
- 개방형 예측을 가능하게 하기 위해 불연속 로컬라이제이션 토큰과 의미 비제한적 클래스 토큰을 추가한다.
- 두 단계 학습을 수행한다: (i) 고정된 LLM으로 감시가 가능한 탐지에 무작위 카테고리로 시각 백본과 토크나이저를 사전 학습하고, (ii) 작업 간의 통합 감독 하에 공동 학습한다.
- LoRA를 활용한 효율적 파인튜닝과 교차 엔트로피 손실을 사용하여 시각 및 언어 출력 모두를 감독한다.
![(a) Vision generalist models [ 59 , 61 , 83 ] are constrained by the format of pre-defined tasks.](https://ar5iv.labs.arxiv.org/html/2305.11175/assets/x1.png)
실험 결과
연구 질문
- RQ1LLM 기반의 개방형 디코더가 언어 지시를 통해 다양한 비전 중심 작업에 효과적으로 사용될 수 있는가?
- RQ2작업 커스터마이징(대상 객체와 출력 형식)을 특정 작업 헤드 없이도 언어 프롬프트를 통해 어느 정도 제어할 수 있는가?
- RQ3언어 주도 이미지 토크나이저가 검출, 분할, 그라운딩, 캡션 생성, VQA 등에서 교차 모달 정합성과 작업 성능에 어떤 영향을 미치는가?
- RQ4단일 작업 학습과 다중 작업 학습 간의 트레이드오프는 무엇이며 이를 통합 비전-언어 프레임워크에서 어떻게 관리하는가?
- RQ5출력 형식-질의 디코딩이 비전 작업의 효율성과 성능에 어떤 영향을 미치는가?
주요 결과
- VisionLLM은 객체 검출, 인스턴스 분할, 시각적 그라운딩, 이미지 캡션 생성, VQA 등 다수의 비전 중심 작업에서 언어 지시를 사용해 강력한 성능을 달성한다.
- ResNet-50 백본과 VisionLLM을 결합하면 검출에서 44.6 mAP, 64.0 AP50, 48.1 AP75 및 관련 지표를 달성하는 반면, 더 강력한 InternImage-H 백본을 사용하면 COCO에서 60.2 mAP에 도달하여 최신 검출 모델에 근접하다.
- 모델은 RefCOCO 검증에서 ResNet-50로 80.6 P@0.5, InternImage-H로 86.7 P@0.5의 강력한 시각적 그라운딩을 시연한다.
- 이미지 캡션 생성에서 VisionLLM은 백본에 따라 BLEU-4 약 31.0–32.1, CIDEr 약 112–114를 달성하여 비전-언어 베이스라인과의 경쟁력을 보인다.
- 프레임워크는 세부 조정이 가능하다: 대상 클래스를 최대 80까지 변경하고 출력 포인트 수를 8–24로 다양화하면서도 합리적인 AP 점수를 유지한다.
- 언어 주도 이미지 토크나이저가 텍스트 인코더(BERT) 및 교차 주의와 함께 작동하여 기존 대안 방법보다 정렬 및 토큰화 성능을 향상시킨다.
![(b) Visual prompt tuning [ 26 , 64 , 62 ] are inconsistent with the format of LLMs.](https://ar5iv.labs.arxiv.org/html/2305.11175/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.