[논문 리뷰] Otter: A Multi-Modal Model with In-Context Instruction Tuning
Otter는 OpenFlamingo를 새로운 다중모달 인-context 지시 데이터세트에서 파인튜닝하여 지시 따르기 및 컨텍스트 내 학습을 향상시키고, 훈련 필요성을 줄이며 Hugging Face와의 통합을 추진한다.
Recent advances in Large Multimodal Models (LMMs) have unveiled great potential as visual assistants. However, most existing works focus on responding to individual instructions or using previous dialogues for contextual understanding. There is little discussion on employing both images and text as in-context examples to enhance the instruction following capability. To bridge this gap, we introduce the extbf{Otter} model to leverage both textual and visual in-context examples for instruction tuning. Specifically, Otter builds upon Flamingo with Perceiver architecture, and has been instruction tuned for general purpose multi-modal assistant. Otter seamlessly processes multi-modal inputs, supporting modalities including text, multiple images, and dynamic video content. To support the training of Otter, we present the extbf{MIMIC-IT} ( extbf{M}ult extbf{I}- extbf{M}odal extbf{I}n- extbf{C}ontext extbf{I}nstruction extbf{T}uning) dataset, which encompasses over 3 million multi-modal instruction-response pairs, including approximately 2.2 million unique instructions across a broad spectrum of images and videos. MIMIC-IT has been carefully curated to feature a diverse array of in-context examples for each entry. Comprehensive evaluations suggest that instruction tuning with these in-context examples substantially enhances model convergence and generalization capabilities. Notably, the extensive scenario coverage provided by the MIMIC-IT dataset empowers the Otter model to excel in tasks involving complex video and multi-image understanding.
연구 동기 및 목표
- 다중모달 모델의 지시 튜닝을 통해 지시 따르기 및 맥락 기반 학습을 향상시키려는 동기를 부여한다.
- 다중 모드 사전학습 데이터를 교차배치로 활용하여 자연스러운 교차모달 정렬을 가능하게 한다.
- 연구자들을 위한 실용적이고 자원 효율적인 파인튜닝 워크플로를 제공한다.
- Otter를 Hugging Face와 통합하고 하드웨어 요구를 줄여 접근성을 민주화한다.
제안 방법
- 이미지-지시-정답 삼중항과 맥락적 인-context 예제를 포함하는 MIMIC-IT 데이터세트를 도입한다.
- 비전 인코더를 고정하고 교차 어텐션 및 Perceiver 재샘플러 모듈을 학습시키는 방식으로 OpenFlamingo 기본 모델을 파인튜닝하여 약 1.3B개의 학습 가능 매개변수를 도출한다.
- 특수 토큰을 사용한 챗봇 스타일의 훈련 형식을 활용해 지시 따르기 및 인-context 학습을 훈련한다.
- Cosine 학습률 감소 및 그래디언트 클리핑을 사용하여 4 GPU에서 6 에포크 동안 AdamW로 훈련한다.
- Otter를 Hugging Face Transformers에 통합하고 OpenFlamingo 체크포인트용 변환 스크립트를 제공한다.

실험 결과
연구 질문
- RQ1MIMIC-IT를 통한 다중모달 지시 튜닝이 다중모달 모델에서 명시적 지시 따르기를 향상시킬 수 있는가?
- RQ2인-context 학습이 Otter가 적은 예시로도 새로운 지시를 실행하도록 가능하게 하는가?
- RQ3강력한 다중모달 지시 따르기를 달성하기 위한 실용적 훈련 자원 요건은 무엇인가?
- RQ4Otter가 지시 따르기와 장면 이해에서 OpenFlamingo와 비교하여 어떤 차이가 있는가?
- RQ5연구자들이 OpenFlamingo 아키텍처를 더 쉽게 접근할 수 있도록 어떻게 만들 수 있는가?
주요 결과
- Otter는 MIMIC-IT에서 파인튜닝한 후 OpenFlamingo보다 지시 수행 능력이 향상되었음을 입증한다.
- Otter는 제공된 인-context 예시를 사용하여 새로운 지시를 실행하도록 학습할 수 있다.
- 최적화가 4× RTX3090 GPU로 훈련 필요성을 줄이고 Hugging Face Transformers에의 통합을 가능하게 한다.
- 모델은 정성적 분석에서 기저모델 대비 더 깊은 장면 이해 및 상식 추론을 보여준다.
- Otter는 모델 허브 위치와 변환 스크립트를 포함한 접근 가능한 도구와 함께 공개된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.