[논문 리뷰] MIMIC-IT: Multi-Modal In-Context Instruction Tuning
MIMIC-IT는 컨텍스트 멀티모달 정보를 가진 2.8M 멀티모달 인스트럭션튜닝 데이터셋을 도입하고, Otter(오터, OpenFlamingo 기반 VLM)를 학습시키며 벤치마크 전반에서 강력한 지각, 추론, 컨텍스트 학습을 보여준다.
High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.
연구 동기 및 목표
- 제로샷 일반화를 위한 고품질의 다양하고 멀티모달 인스트럭션-팔로잉 데이터의 동기 부여.
- 이미지와 비디오를 포함한 다중 언어의 멀티모달 인-컨텍스트 인스트럭션-대응 쌍 데이터셋 구성.
- 시스템 메시지, 시각적 주석, 컨텍스트 예시를 이용한 자동생성 파이프라인(Syphus)으로 인스트럭션-대응 쌍을 생성하도록 하는 자동화 파이프라인 구현.
- MIMIC-IT에서 Otter를 학습시키고 MMAGIBench와 Multi-Modality Arena에서 그 지각, 추론, 컨텍스트 학습 능력을 평가.
- 데이터셋, 주석 파이프라인, 벤치마크, Otter 모델을 커뮤니티에 공개.
제안 방법
- 멀티 이미지/비디오 입력 및 컨텍스트 정보를 갖는 데이터 형식 정의: d_q = (I_q, R_q, X_q, C_ψ(I_q, X_q)).
- Sythus를 시스템 메시지, 시각적 주석, 컨텍스트 예제를 이용해 ChatGPT/GPT-4가 인스트럭션-대응 쌍을 생성하도록 하는 자동생성 파이프라인 구축.
- 모든 인스트럭션/대응을 여덟 가지 언어로 번역하여 다국어 사용을 가능하게 함.
- 다양한 현장을 포함하는 실내/실외/에고센트릭 등의 7개의 다양한 시각 데이터셋을 큐레이션하여 데이터셋을 구성.
- MIMIC-IT에서 OpenFlamingo 기반의 다중모달 모델 Otter를 학습시키고 MMAGIBench 및 Multi-Modality Arena에서 평가.
- COCO Caption에 대한 소수 샷 컨텍스트 학습 테스트 및 인간 정렬 평가를 포함한 평가 프레임워크를 제공.
실험 결과
연구 질문
- RQ1대규모 멀티모달 컨텍스트 인스트럭션-튜닝 데이터셋이 비전-언어 모델의 제로샷 일반화를 어떻게 개선할 수 있는가?
- RQ2멀티모달 컨텍스트 정보(여러 이미지/비디오)가 인스트럭션-팔로잉 성능에 어떤 영향을 미치는가?
- RQ3종단 간 학습 가능 멀티모달 모델(Otter)이 다양한 작업에서 강력한 지각, 추론, 컨텍스트 학습을 달성할 수 있는가?
- RQ4 Instructions-응답을 여덟 언어로 번역하는 것이 다국어 측면에서 어떤 이점을 제공하는가?
- RQ5Otter는 표준 벤치마크와 인간 평가에서 현대 VLM과 비교하여 어떤 차이를 보이는가?
주요 결과
| 모델 | 언어 | 디코더 | 평균 | 거친 | 세밀한 | 속성 | 관계 | 미래 예측. |
|---|---|---|---|---|---|---|---|---|
| InstructBLIP | Vicuna-7B | - | 50.4 | 67.8 | 52.2 | 43.8 | 38.2 | 50.0 |
| MiniGPT-4 | Vicuna-7B | - | 51.0 | 63.3 | 47.8 | 50.6 | 26.5 | 66.7 |
| OpenFlamingo | LLaMA-7B | - | 51.1 | 34.4 | 40.0 | 61.3 | 52.9 | 66.7 |
| LLaVA | Vicuna-7B | - | 62.7 | 44.4 | 54.2 | 71.9 | 76.5 | 66.7 |
| Otter | LLaMA-7B | - | 65.5 | 68.9 | 47.3 | 66.3 | 61.8 | 83.3 |
- Otter는 MMAGIBench 지각 및 추론 벤치마크에서 평가된 VLM들 중 최고 성능을 달성하였다.
- 사람 평가(Multi-Modality Arena)에서 Otter가 최근 VLM에 비해 상대적으로 가장 높은 Elo 등급을 보여주며 더 높은 유용성과 정렬성을 시사한다.
- Otter는 COCO Caption(CIDEr)에서 OpenFlamingo에 비해 소수 샷 컨텍스트 학습이 우수함을 보여준다.
- 데이터셋은 2.8백만 개가 넘는 인스트럭션-대응 쌍과 총 2.2백만 개의 고유 인스트럭션을 포함하여, 팔로잉 컨텍스트 정보를 여덟 가지 언어로 제공하는 일반 현장 데이터를 포함한다.
- Sythus는 시스템 프롬프트, 시각적 주석, 컨텍스트 예제를 결합하여 고품질의 다국어 인스트럭션-대응 생성을 가능하게 한다.
- Otter는 다중 라운드 대화, 장면 이해, 그리고 AR 헤드셋용 Otter-E와 같은 에고센트릭 시각 도우미 기능을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.