QUICK REVIEW

[논문 리뷰] Visual Instruction Tuning

Haotian Liu, Chunyuan Li|arXiv (Cornell University)|2023. 04. 17.

Multimodal Machine Learning Applications인용 수 670

한 줄 요약

이 논문은 LLaVA를 도입합니다. 이는 vision encoder와 LLM을 GPT-4가 생성한 비전-언어 데이터로 지시를 학습시켜 대화를 가능하게 하는 대형 다중모달 모델이며, GPT-4와 결합할 때 ScienceQA에서 최첨단 성능을 달성합니다.

ABSTRACT

Instruction tuning large language models (LLMs) using machine-generated instruction-following data has improved zero-shot capabilities on new tasks, but the idea is less explored in the multimodal field. In this paper, we present the first attempt to use language-only GPT-4 to generate multimodal language-image instruction-following data. By instruction tuning on such generated data, we introduce LLaVA: Large Language and Vision Assistant, an end-to-end trained large multimodal model that connects a vision encoder and LLM for general-purpose visual and language understanding.Our early experiments show that LLaVA demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 85.1% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. When fine-tuned on Science QA, the synergy of LLaVA and GPT-4 achieves a new state-of-the-art accuracy of 92.53%. We make GPT-4 generated visual instruction tuning data, our model and code base publicly available.

연구 동기 및 목표

비전-언어 모델에 대한 지시 학습 확장을 통해 일반 목적의 시각적 어시스턴트를 가능하게 한다는 동기를 제시한다.
언어 모델을 사용하여 다중모달 지시-수행 데이터를 생성하는 확장 가능한 파이프라인을 제공한다.
비전 인코더와 언어 모델을 결합한 대형 다중모달 모델인 LLaVA를 개발·평가한다.
멀티모달 지시 수행을 위한 챗과 추론 과제를 위한 벤치마크(LLaVA-Bench)를 생성하고 공개한다.

제안 방법

CLIP 비주얼 인코더를 Vicuna 언어 모델에 학습 가능한 프로젝션 W를 통해 연결해 시각 토큰을 생성한다.
이미지-텍스트 데이터를 바탕으로 GPT-4(및 이전의 ChatGPT)로부터 대화, 상세 설명, 복합 추론의 세 가지 형식으로 158K 개의 다중모달 지시-수행 샘플을 생성한다.
2단계 학습: 1단계는 CC3M의 서브샘플을 사용해 이미지 특징을 LLM 임베딩과 맞춰 시각 토크나이저를 예비 학습한다; 2단계는 생성된 데이터로 W와 φ(LM)을 이용해 엔드 투 엔드로 미세 조정한다.
다중모달 챗 데이터를 사용해 학습하고 다중모달 챗 및 ScienceQA에서 평가한다; 결과 향상을 위해 GPT-4를 앙상블한다.

실험 결과

연구 질문

RQ1GPT-4가 생성한 비전-언어 데이터가 다중모달 모델의 효과적인 시각 지시 학습을 가능하게 하는가?
RQ2CLIP-Vicuna 아키텍처가 GPT-4 생성 데이터 파이프라인과 결합될 때 열린 멀티모달 과제에서 얼마나 잘 작동하는가?
RQ3LLaVA를 GPT-4와 결합하면 멀티모달 추론 벤치마크에서 최첨단 성과를 낼 수 있는가?
RQ4대화, 상세 설명, 복합 추론 등 서로 다른 유형의 지시 수행 데이터가 다중모달 정렬에 어떤 가치를 제공하는가?

주요 결과

모델	대화	상세 설명	복합 추론	전체
OpenFlamingo	19.3 ± 0.5	19.0 ± 0.5	19.1 ± 0.7	19.1 ± 0.4
BLIP-2	54.6 ± 1.4	29.1 ± 1.2	32.9 ± 0.7	38.1 ± 1.0
LLaVA	57.3 ± 1.9	52.5 ± 6.3	81.7 ± 1.8	67.3 ± 2.0
LLaVA †	58.8 ± 0.6	49.2 ± 0.8	81.4 ± 0.3	66.7 ± 0.3

LLaVA는 강력한 멀티모달 챗 능력을 달성하여 보지 않은 이미지와 지시에서 멀티모달 GPT-4에 근접한다.
합성 다중모달 지시-수행 데이터 셋에서 LLaVA는 GPT-4 대비 상대 점수 85.1%를 달성한다.
ScienceQA에 대해 GPT-4 앙상블로 미세 조정하면 새로운 최첨단 정확도 92.53%를 달성한다.
LLaVA-Bench(In-the-Wild)는 지시 학습의 큰 이점을 보여주며 세 가지 데이터 유형 모두 85.1%의 최고의 전체 성능을 제공한다.
근거 연구는 사전 학습 및 모델 규모가 결과에 실질적으로 영향을 미치며, 13B LLaVA 모델은 ScienceQA에서 90.92%를 달성하고 GPT-4와 결합 시 SOTA에 진입한다.

Table 3 : Example prompt from GPT-4 paper [ 36 ] to compare visual reasoning and chat capabilities. Compared to BLIP-2 [ 28 ] and OpenFlamingo [ 5 ] , LLaVA accurately follows the user’s instructions, instead of simply describing the scene. LLaVA offers a more comprehensive response than GPT-4. Even

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.