Skip to main content
QUICK REVIEW

[논문 리뷰] MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li, Yuanhan Zhang|arXiv (Cornell University)|2023. 06. 08.
Multimodal Machine Learning Applications인용 수 28
한 줄 요약

MIMIC-IT는 컨텍스트 멀티모달 정보를 가진 2.8M 멀티모달 인스트럭션튜닝 데이터셋을 도입하고, Otter(오터, OpenFlamingo 기반 VLM)를 학습시키며 벤치마크 전반에서 강력한 지각, 추론, 컨텍스트 학습을 보여준다.

ABSTRACT

High-quality instructions and responses are essential for the zero-shot performance of large language models on interactive natural language tasks. For interactive vision-language tasks involving intricate visual scenes, a large quantity of diverse and creative instruction-response pairs should be imperative to tune vision-language models (VLMs). Nevertheless, the current availability of vision-language instruction-response pairs in terms of quantity, diversity, and creativity remains limited, posing challenges to the generalization of interactive VLMs. Here we present MultI-Modal In-Context Instruction Tuning (MIMIC-IT), a dataset comprising 2.8 million multimodal instruction-response pairs, with 2.2 million unique instructions derived from images and videos. Each pair is accompanied by multi-modal in-context information, forming conversational contexts aimed at empowering VLMs in perception, reasoning, and planning. The instruction-response collection process, dubbed as Syphus, is scaled using an automatic annotation pipeline that combines human expertise with GPT's capabilities. Using the MIMIC-IT dataset, we train a large VLM named Otter. Based on extensive evaluations conducted on vision-language benchmarks, it has been observed that Otter demonstrates remarkable proficiency in multi-modal perception, reasoning, and in-context learning. Human evaluation reveals it effectively aligns with the user's intentions. We release the MIMIC-IT dataset, instruction-response collection pipeline, benchmarks, and the Otter model.

연구 동기 및 목표

  • 제로샷 일반화를 위한 고품질의 다양하고 멀티모달 인스트럭션-팔로잉 데이터의 동기 부여.
  • 이미지와 비디오를 포함한 다중 언어의 멀티모달 인-컨텍스트 인스트럭션-대응 쌍 데이터셋 구성.
  • 시스템 메시지, 시각적 주석, 컨텍스트 예시를 이용한 자동생성 파이프라인(Syphus)으로 인스트럭션-대응 쌍을 생성하도록 하는 자동화 파이프라인 구현.
  • MIMIC-IT에서 Otter를 학습시키고 MMAGIBench와 Multi-Modality Arena에서 그 지각, 추론, 컨텍스트 학습 능력을 평가.
  • 데이터셋, 주석 파이프라인, 벤치마크, Otter 모델을 커뮤니티에 공개.

제안 방법

  • 멀티 이미지/비디오 입력 및 컨텍스트 정보를 갖는 데이터 형식 정의: d_q = (I_q, R_q, X_q, C_ψ(I_q, X_q)).
  • Sythus를 시스템 메시지, 시각적 주석, 컨텍스트 예제를 이용해 ChatGPT/GPT-4가 인스트럭션-대응 쌍을 생성하도록 하는 자동생성 파이프라인 구축.
  • 모든 인스트럭션/대응을 여덟 가지 언어로 번역하여 다국어 사용을 가능하게 함.
  • 다양한 현장을 포함하는 실내/실외/에고센트릭 등의 7개의 다양한 시각 데이터셋을 큐레이션하여 데이터셋을 구성.
  • MIMIC-IT에서 OpenFlamingo 기반의 다중모달 모델 Otter를 학습시키고 MMAGIBench 및 Multi-Modality Arena에서 평가.
  • COCO Caption에 대한 소수 샷 컨텍스트 학습 테스트 및 인간 정렬 평가를 포함한 평가 프레임워크를 제공.

실험 결과

연구 질문

  • RQ1대규모 멀티모달 컨텍스트 인스트럭션-튜닝 데이터셋이 비전-언어 모델의 제로샷 일반화를 어떻게 개선할 수 있는가?
  • RQ2멀티모달 컨텍스트 정보(여러 이미지/비디오)가 인스트럭션-팔로잉 성능에 어떤 영향을 미치는가?
  • RQ3종단 간 학습 가능 멀티모달 모델(Otter)이 다양한 작업에서 강력한 지각, 추론, 컨텍스트 학습을 달성할 수 있는가?
  • RQ4 Instructions-응답을 여덟 언어로 번역하는 것이 다국어 측면에서 어떤 이점을 제공하는가?
  • RQ5Otter는 표준 벤치마크와 인간 평가에서 현대 VLM과 비교하여 어떤 차이를 보이는가?

주요 결과

모델언어디코더평균거친세밀한속성관계미래 예측.
InstructBLIPVicuna-7B-50.467.852.243.838.250.0
MiniGPT-4Vicuna-7B-51.063.347.850.626.566.7
OpenFlamingoLLaMA-7B-51.134.440.061.352.966.7
LLaVAVicuna-7B-62.744.454.271.976.566.7
OtterLLaMA-7B-65.568.947.366.361.883.3
  • Otter는 MMAGIBench 지각 및 추론 벤치마크에서 평가된 VLM들 중 최고 성능을 달성하였다.
  • 사람 평가(Multi-Modality Arena)에서 Otter가 최근 VLM에 비해 상대적으로 가장 높은 Elo 등급을 보여주며 더 높은 유용성과 정렬성을 시사한다.
  • Otter는 COCO Caption(CIDEr)에서 OpenFlamingo에 비해 소수 샷 컨텍스트 학습이 우수함을 보여준다.
  • 데이터셋은 2.8백만 개가 넘는 인스트럭션-대응 쌍과 총 2.2백만 개의 고유 인스트럭션을 포함하여, 팔로잉 컨텍스트 정보를 여덟 가지 언어로 제공하는 일반 현장 데이터를 포함한다.
  • Sythus는 시스템 프롬프트, 시각적 주석, 컨텍스트 예제를 결합하여 고품질의 다국어 인스트럭션-대응 생성을 가능하게 한다.
  • Otter는 다중 라운드 대화, 장면 이해, 그리고 AR 헤드셋용 Otter-E와 같은 에고센트릭 시각 도우미 기능을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.