QUICK REVIEW

[논문 리뷰] MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li, Yuanhan Zhang|arXiv (Cornell University)|2023. 06. 08.

Multimodal Machine Learning Applications인용 수 28

한 줄 요약

MIMIC-IT는 컨텍스트 멀티모달 정보를 가진 2.8M 멀티모달 인스트럭션튜닝 데이터셋을 도입하고, Otter(오터, OpenFlamingo 기반 VLM)를 학습시키며 벤치마크 전반에서 강력한 지각, 추론, 컨텍스트 학습을 보여준다.

ABSTRACT

High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.

연구 동기 및 목표

제로샷 일반화를 위한 고품질의 다양하고 멀티모달 인스트럭션-팔로잉 데이터의 동기 부여.
이미지와 비디오를 포함한 다중 언어의 멀티모달 인-컨텍스트 인스트럭션-대응 쌍 데이터셋 구성.
시스템 메시지, 시각적 주석, 컨텍스트 예시를 이용한 자동생성 파이프라인(Syphus)으로 인스트럭션-대응 쌍을 생성하도록 하는 자동화 파이프라인 구현.
MIMIC-IT에서 Otter를 학습시키고 MMAGIBench와 Multi-Modality Arena에서 그 지각, 추론, 컨텍스트 학습 능력을 평가.
데이터셋, 주석 파이프라인, 벤치마크, Otter 모델을 커뮤니티에 공개.

제안 방법

멀티 이미지/비디오 입력 및 컨텍스트 정보를 갖는 데이터 형식 정의: d_q = (I_q, R_q, X_q, C_ψ(I_q, X_q)).
Sythus를 시스템 메시지, 시각적 주석, 컨텍스트 예제를 이용해 ChatGPT/GPT-4가 인스트럭션-대응 쌍을 생성하도록 하는 자동생성 파이프라인 구축.
모든 인스트럭션/대응을 여덟 가지 언어로 번역하여 다국어 사용을 가능하게 함.
다양한 현장을 포함하는 실내/실외/에고센트릭 등의 7개의 다양한 시각 데이터셋을 큐레이션하여 데이터셋을 구성.
MIMIC-IT에서 OpenFlamingo 기반의 다중모달 모델 Otter를 학습시키고 MMAGIBench 및 Multi-Modality Arena에서 평가.
COCO Caption에 대한 소수 샷 컨텍스트 학습 테스트 및 인간 정렬 평가를 포함한 평가 프레임워크를 제공.

실험 결과

연구 질문

RQ1대규모 멀티모달 컨텍스트 인스트럭션-튜닝 데이터셋이 비전-언어 모델의 제로샷 일반화를 어떻게 개선할 수 있는가?
RQ2멀티모달 컨텍스트 정보(여러 이미지/비디오)가 인스트럭션-팔로잉 성능에 어떤 영향을 미치는가?
RQ3종단 간 학습 가능 멀티모달 모델(Otter)이 다양한 작업에서 강력한 지각, 추론, 컨텍스트 학습을 달성할 수 있는가?
RQ4 Instructions-응답을 여덟 언어로 번역하는 것이 다국어 측면에서 어떤 이점을 제공하는가?
RQ5Otter는 표준 벤치마크와 인간 평가에서 현대 VLM과 비교하여 어떤 차이를 보이는가?

주요 결과

모델	언어	디코더	평균	거친	세밀한	속성	관계	미래 예측.
InstructBLIP	Vicuna-7B	-	50.4	67.8	52.2	43.8	38.2	50.0
MiniGPT-4	Vicuna-7B	-	51.0	63.3	47.8	50.6	26.5	66.7
OpenFlamingo	LLaMA-7B	-	51.1	34.4	40.0	61.3	52.9	66.7
LLaVA	Vicuna-7B	-	62.7	44.4	54.2	71.9	76.5	66.7
Otter	LLaMA-7B	-	65.5	68.9	47.3	66.3	61.8	83.3

Otter는 MMAGIBench 지각 및 추론 벤치마크에서 평가된 VLM들 중 최고 성능을 달성하였다.
사람 평가(Multi-Modality Arena)에서 Otter가 최근 VLM에 비해 상대적으로 가장 높은 Elo 등급을 보여주며 더 높은 유용성과 정렬성을 시사한다.
Otter는 COCO Caption(CIDEr)에서 OpenFlamingo에 비해 소수 샷 컨텍스트 학습이 우수함을 보여준다.
데이터셋은 2.8백만 개가 넘는 인스트럭션-대응 쌍과 총 2.2백만 개의 고유 인스트럭션을 포함하여, 팔로잉 컨텍스트 정보를 여덟 가지 언어로 제공하는 일반 현장 데이터를 포함한다.
Sythus는 시스템 프롬프트, 시각적 주석, 컨텍스트 예제를 결합하여 고품질의 다국어 인스트럭션-대응 생성을 가능하게 한다.
Otter는 다중 라운드 대화, 장면 이해, 그리고 AR 헤드셋용 Otter-E와 같은 에고센트릭 시각 도우미 기능을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.