QUICK REVIEW

[논문 리뷰] NExT-GPT: Any-to-Any Multimodal LLM

Shengqiong Wu, Fei Hao|arXiv (Cornell University)|2023. 09. 11.

Topic Modeling인용 수 94

한 줄 요약

NExT-GPT는 텍스트, 이미지, 비디오, 오디오 간 콘텐츠를 수용하고 생성할 수 있는 엔드-투-엔드의 임의-대-임의 멀티모달 LLM로, LLM을 멀티모달 인코더/확산 디코더 및 경량 투영과 연결하고 모달리티 전환 지시 미세조정(MosIT)을 활용합니다.

ABSTRACT

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community. Project page: https://next-gpt.github.io/

연구 동기 및 목표

입력은 이해하지만 여러 모달리티에 걸쳐 출력할 수 없는 MM-LLM의 격차를 해소한다.
입력과 출력 모두에서 텍스트, 이미지, 비디오, 오디오를 다루는 엔드-투-엔드의 임의-대-임의 MM-LLM을 개발한다.
학습 비용을 최소화하고 쉽게 모달리티 확장을 가능하게 하기 위해 시중의 인코더/디코더를 활용한다.
교차 모달 추론 및 생성을 강화하기 위해 고품질 데이터셋으로 모달리티 전환 지시 미세조정(MosIT)을 도입한다.

제안 방법

3계층 아키텍처: 시중의 인코더를 이용한 멀티모달 인코딩과 언어 공간으로의 투영 계층; LLM 기반 이해 및 추론; 모달리티 신호에 조건화된 확산 디코더를 통한 멀티모달 디코딩.
이미지 바인드(ImageBind) 기반의 또는 다른 인코더를 사용하여 입력을 언어 유사 표현으로 매핑; 인코더/디코더를 동결하고 입력/출력 투영 계층만 학습시키며 매개변수의 약 1% 수준으로 한다.
LLM(Vicuna 7B)는 텍스트 토큰과 모달리티 시그널 토큰을 출력하여 각 모달리티에서 무엇을 생성할지 여부를 디코더에 지시한다.
모달 시그널은 특정 토큰들(<IMG_i>, <AUD_i>, <VID_i> 등)로 정의되어 콘텐츠 생성을 위한 대응하는 확산 디코더로 표현을 전달한다.
경량 정렬: 인코딩 측에서 LLM 중심의 멀티모달 정렬을 캡션과 같은 목표로 학습; 디코딩 측 지시 이행 정렬은 확산 조건 인코더를 LLM 출력과 맞춘다.
MosIT 데이터: 템플릿과 GPT-4로 구성된 5K의 고품질 멀티모달 지시 조정 데이터세트로, 복잡한 교차 모달 지시와 다회 대화를 다룬다.

실험 결과

연구 질문

RQ1텍스트, 이미지, 비디오, 오디오의 임의 조합에 대해 LLM 중심의 엔드-투-엔드 시스템이 이해하고 콘텐츠를 생성할 수 있는가?
RQ2최소 매개변수 업데이트로 가능한 효율적인 교차 모달 정렬을 가능하게 하는 학습 전략은 무엇인가?
RQ3모달리티 전환 지시 미세조정이 다양한 모달 변환에서 교차 모달 추론 및 생성 품질을 향상시키는가?

주요 결과

NExT-GPT는 baselines와 비교해 텍스트-대- X 및 X-대-텍스트 작업에서 경쟁력 있거나 우수한 생성 품질을 달성한다(예: 텍스트-대-이미지: COCO-caption에서 NExT-GPT 11.28 FID 대 CogVideo 27.10; CoDi 11.26).
텍스트-대-오디오: NExT-GPT FD 23.58 및 IS 8.35가 AudioCaps에서 여러 기준선과 비교해 우수한 편이다.
텍스트-대-비디오: MSR-VTT에서 NExT-GPT FD 13.04 및 CLIPSIM 0.3085로 확산 기반 시스템 중 강한 성능을 보인다.
COCO-caption의 이미지-대-텍스트(캡션링): NExT-GPT B@4 44.3 및 CIDEr 156.7로 다수의 기준선을 상회한다.
오디오-대-텍스트: NExT-GPT B@4 58.4 및 METEOR 38.5가 AudioCaps에서 다수의 대안보다 우수하다.
MSR-VTT의 비디오-대-텍스트: NExT-GPT CIDEr 0.802로 강력한 비디오 캡션 능력을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.