QUICK REVIEW

[논문 리뷰] Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

Chenyang Lyu, Minghao Wu|arXiv (Cornell University)|2023. 06. 15.

Multimodal Machine Learning Applications인용 수 27

한 줄 요약

Macaw-LLM은 이미지, 비디오, 오디오, 텍스트를 통합 처리하는 새로운 정렬 모듈을 갖춘 다중 모달 지시어 튜닝 LLM으로, 단일 모델 내에서 통합 처리를 가능하게 한다.

ABSTRACT

Although instruction-tuned large language models (LLMs) have exhibited remarkable capabilities across various NLP tasks, their effectiveness on other data modalities beyond text has not been fully studied. In this work, we propose Macaw-LLM, a novel multi-modal LLM that seamlessly integrates visual, audio, and textual information. Macaw-LLM consists of three main components: a modality module for encoding multi-modal data, a cognitive module for harnessing pretrained LLMs, and an alignment module for harmonizing diverse representations. Our novel alignment module seamlessly bridges multi-modal features to textual features, simplifying the adaptation process from the modality modules to the cognitive module. In addition, we construct a large-scale multi-modal instruction dataset in terms of multi-turn dialogue, including 69K image instances and 50K video instances. We have made our data, code and model publicly available, which we hope can pave the way for future research in multi-modal LLMs and expand the capabilities of LLMs to handle diverse data modalities and address complex real-world scenarios.

연구 동기 및 목표

텍스트를 넘어서 시각, 오디오 및 비디오 데이터를 다루도록 지시어 튜닝된 LLM의 확장을 동기화하는 것을 동기부여한다.
다중 모달 데이터를 공동으로 인코딩하고 이를 텍스트 임베딩과 정렬하는 엔드-투-엔드 아키텍처를 제안한다.
모든 모델 매개변수를 엔드-투-엔드로 미세조정하는 원샷(one-step) 지시어 미세조정 방법을 도입한다.
이미지와 비디오 모달리티를 포괄하는 대규모 다중 모달 지시 데이터셋을 만들어 공개하여 다중 모달 LLM 연구를 지원한다.

제안 방법

이미지와 비디오에 대해 CLIP-ViT-B/16으로, 오디오에 대해서는 Whisper-base를, 인지/텍스트 백본으로는 LLaMA-7B를 사용한다.
정렬 모듈은 1-D 컨볼루션과 선형 계층을 사용해 다중 모달 특징을 고정 길이로 압축한 뒤 텍스트 임베딩에 대해 어텐션을 적용해 정렬된 표현을 산출한다.
정렬된 시각, 오디오, 비디오 표현을 텍스트 임베딩과 연결(concatenation)해 다중 모달 지시를 형성한다.
원샷 지시어 미세조정 목표는 생성된 응답의 음의 로그우도(NLL)를 최소화하고 모든 모델 매개변수를 공동으로 업데이트한다.
Macaw-LLM 지시 데이터세트는 COCO 이미지 캡션과 Charades/AVSD 비디오 캡션에서 지시-응답 쌍을 생성하도록 GPT-3.5-Turbo를 프롬프트로 사용하고, 텍스트 전용 지시 데이터(Alpaca)로 보완하여 구성된다.
학습 설정은 8대의 Nvidia A100 GPU에서 DeepSpeed를 사용하고, 배치 크기 per device 4, 에폭 5, 학습률 3e-5, 워밍업 0.03, FP16을 사용한다.

실험 결과

연구 질문

RQ1단일 모델이 이미지, 비디오, 오디오 및 텍스트 모달리티에서 지시를 처리하고 따를 수 있는가?
RQ2통합 정렬 방식이 LLM 백본 내에서 효율적이고 일관된 다중 모달 지시 이행을 가능하게 하는가?
RQ3다중 모달 LLM에 대한 원샷 엔드투엔드 미세조정 접근법이 두 단계 방법과 비교하여 효과적인가?
RQ4제안된 Macaw-LLM 데이터셋이 지시 조정 지원을 위한 다양하고 지시 정렬된 다중 모달 데이터를 제공하는가?]
RQ5Macaw-LLM은 단일 턴 대화에서 다중 모달 콘텐츠를 얼마나 잘 생성하고 추론할 수 있는가?

주요 결과

Macaw-LLM은 새로운 정렬 모듈을 통해 다중 모달 특징을 LLM 입력 시퀀스에 통합하여 통합 처리 가능성을 제공한다.
모델은 하나의 아키텍처 내에서 이미지, 비디오, 오디오, 텍스트 모달리티를 동시에 처리하는 것을 지원한다.
원샷 지시어 미세조정 방법은 별도 프로젝션-스테이지 학습 없이 모달리티와 인지 LLM을 일관되게 정렬한다.
저자는 이미지 및 비디오 기반의 지시-응답 쌍으로 구성된 대규모 Macaw-LLM 지시 데이터셋을 공개해 향후 연구를 촉진한다.
예시들은 이미지 및 비디오 기반 QA, 시각적 추론, 및 오디오 보강 비디오 이해를 보여 주며 강력한 다중 모달 능력을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.