[논문 리뷰] GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
GPT4RoI는 영역-텍스트 데이터에 대해 RoI 피처로 영역 참조를 대체하여 LLM을 지시-튜닝하는 엔드투엔드 비전-언어 모델로, 영역 수준의 이해와 대화형 다회 대화를 가능하게 한다.
Visual instruction tuning large language model(LLM) on image-text pairs has achieved general-purpose vision-language abilities. However, the lack of region-text pairs limits their advancements to fine-grained multimodal understanding. In this paper, we propose spatial instruction tuning, which introduces the reference to the region-of-interest(RoI) in the instruction. Before sending to LLM, the reference is replaced by RoI features and interleaved with language embeddings as a sequence. Our model GPT4RoI, trained on 7 region-text pair datasets, brings an unprecedented interactive and conversational experience compared to previous image-level models. (1) Interaction beyond language: Users can interact with our model by both language and drawing bounding boxes to flexibly adjust the referring granularity. (2) Versatile multimodal abilities: A variety of attribute information within each RoI can be mined by GPT4RoI, e.g., color, shape, material, action, etc. Furthermore, it can reason about multiple RoIs based on common sense. On the Visual Commonsense Reasoning(VCR) dataset, GPT4RoI achieves a remarkable accuracy of 81.6%, surpassing all existing models by a significant margin (the second place is 75.6%) and almost reaching human-level performance of 85.0%. The code and model can be found at https://github.com/jshilong/GPT4RoI.
연구 동기 및 목표
- 자연어 지시에서 RoI(Region of Interest)를 참조하는 공간 지시 튜닝을 도입하여 LLM이 영역 수준의 이해를 수행할 수 있도록 한다.
- RoI 특징과 언어 임베딩을 통합하여 영역 캡션 및 추론을 위한 엔드-투-엔드 모델을 개발한다.
- 공개된 영역-텍스트 데이터세트들을 활용하여 RoIs에 관한 다회 대화를 가능하게 하는 통합 모델을 학습한다.
- VCR, Visual Genome 영역 캡션, Visual-7W와 같은 벤치마크에서 최첨단 영역 이해를 입증한다.
제안 방법
- 특수 토큰 <region { i } >를 정의하고 임베딩을 다중 수준 피라미드의 RoIAlign을 통해 RoI 피처로 대체한다.
- 영역 피처를 언어 임베딩과 번갈아 배열하여 Vicuna/LLaMA 계열의 LLM이 처리하는 시퀀스를 형성한다.
- 비전 인코더(ViT-H/14)와 영역 피처 추출기 및 프로젝터를 사용하여 이미지 수준과 영역 수준 정보를 언어 공간에 정렬한다.
- 두 단계로 학습: 1단계는 간단한 영역-텍스트 쌍을 사용하여 영역 피처를 단어 임베딩과 정렬하도록 선행 학습; 2단계는 더 복잡한 영역 텍스트를 사용하여 영역 추출기, 이미지 프로젝터 및 LLM의 엔드투엔드 미세 조정.
- LLaVA150K 데이터와 LVIS 탐지기를 도입하여 다회 대화 능력과 지역 참조 처리 능력을 향상시킨다.
실험 결과
연구 질문
- RQ1입력 시퀀스에서 공간적으로 영역 참조를 영역 수준 이해로 근거지음함으로써 엔드투엔드 비전-언어 모델에서 영역 수준의 이해를 달성할 수 있는가?
- RQ2공간 지시 튜닝이 이미지 수준 지시 튜닝과 비교하여 영역 캡션 및 추론 과제에 어떤 영향을 미치는가?
- RQ3영역-텍스트 데이터세트를 사용하는 것이 영역 캡션, 추론, 그리고 VCR 스타일 과제의 벤치마크 성능에 어떤 영향을 미치는가?
- RQ4다회 대화에서 인터랙티브한 다영역 참조 기능을 모델이 유지하는가?
주요 결과
| BLEU@4 | METEOR | ROUGE | CIDEr | |
|---|---|---|---|---|
| GPT4RoI-7B | 11.5 | 17.4 | 35.0 | 145.2 |
| GPT4RoI-13B | 11.7 | 17.6 | 35.2 | 146.8 |
| GRiT | - | 17.1 | - | 142.0 |
- GPT4RoI는 GPT4RoI-13B에서 VCR에 대해 81.6%(Q→AR)의 최첨단 정확도를 달성했으며, 인간 성능 85.0%에 근접한다.
- Visual Genome 영역 캡션에서 GPT4RoI-7B 및 GPT4RoI-13B가 CIDEr 점수에서 이전 최첨단 GRiT를 능가한다(각각 145.2 및 146.8).
- GPT4RoI-13B는 이전 Visual-7W 방법들보다 현저하게 우수하다(예: 일부 기준에서 84.82% 대 72.53%).
- 모델은 VG 영역 캡션, Visual-7W, VCR 등 영역 수준 능력을 강하게 시연한다.
- 영역 피처를 활용한 엔드투엔드 미세 조정이 중요하다; 7B와 13B 변형은 영역-캡션 성능이 비슷한 수준을 보이며, 시각 모듈과 데이터 가용성을 개선할 여지가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.