[논문 리뷰] ChatBridge: Bridging Modalities with Large Language Model as a Language Catalyst
ChatBridge는 이미지, 비디오, 오디오 모달리티를 연결하기 위해 대규모 언어 모델을 언어 촉매제로 사용하고, 오직 언어-쌍의 두 모달리티 데이터만으로 제로샷 멀티모달 태스크를 달성하며 두 단계 학습과 MULTIS 지시 조정으로 수행합니다.
Building general-purpose models that can perceive diverse real-world modalities and solve various tasks is an appealing target in artificial intelligence. In this paper, we present ChatBridge, a novel multimodal language model that leverages the expressive capabilities of language as the catalyst to bridge the gap between various modalities. We show that only language-paired two-modality data is sufficient to connect all modalities. ChatBridge leverages recent large language models (LLM) and extends their zero-shot capabilities to incorporate diverse multimodal inputs. ChatBridge undergoes a two-stage training. The first stage aligns each modality with language, which brings emergent multimodal correlation and collaboration abilities. The second stage instruction-finetunes ChatBridge to align it with user intent with our newly proposed multimodal instruction tuning dataset, named MULTIS, which covers a wide range of 16 multimodal tasks of text, image, video, and audio modalities. We show strong quantitative and qualitative results on zero-shot multimodal tasks covering text, image, video, and audio modalities. All codes, data, and models of ChatBridge will be open-sourced.
연구 동기 및 목표
- 여러 모달리티를 함께 필요로 하는 모든 모달리티 결합된 페어 데이터를 요구하지 않고도 지각하고 추론할 수 있는 범용 멀티모달 어시스턴트를 구축하고자 하는 동기 부여.
- 모달리티를 언어와 정렬하는 두 단계 학습 파이프라인을 제안하고, MULTIS에서 사용자 의도에 맞춘 지시-미세조정으로 정렬.
- 텍스트, 이미지, 비디오, 오디오에 걸친 16개 태스크 카테고리와 15개 데이터셋으로 구성된 MULTIS 멀티모달 지시-조정 데이터셋을 생성.
제안 방법
- 모달리티별 인코더를 공유된 퍼시버로 통합하여 각 모달리티를 LLM의 의미 공간으로 매핑합니다.
- 계산 비용을 줄이기 위해 고정된 Vicuna-13B LLM을 사용하고 인코더와 그 질의 토큰만 학습시키습니다.
- 1단계는 공개 데이터셋의 이미지-텍스트, 비디오-텍스트, 오디오-텍스트 쌍을 사용하여 모달리티-언어 정렬을 프리트레이닝합니다.
- 2단계는 MULTIS에 대해 멀티모달 지시 조정을 적용하여 멀티모달 태스크의 제로샷 일반화를 향상시킵니다.
실험 결과
연구 질문
- RQ1LLM이 언어 촉매제로 작동하여 두 모달리티 데이터만으로 여러 모달리티를 연결할 수 있는가?
- RQ2두 단계 학습과 MULTIS가 텍스트, 이미지, 비디오, 오디오 태스크에서 강력한 제로샷 성능을 이끌어내는가?
- RQ3MULTIS 지시 조정이 멀티모달 추론 및 대화에 대해 어떤 질적·양적 이득을 제공하는가?
- RQ4ChatBridge가 멀티모달 채팅 설정에서 단일 모달 LLM 기반 벤치마크보다 우수한가?
주요 결과
- ChatBridge는 텍스트, 이미지, 비디오, 오디오에서 단일 모달 및 멀티모달 태스크에 대해 강한 제로샷 성능을 달성한다.
- MULTIS를 활용한 지시 조정은 특정 태스크에서 뚜렷한 이득을 보이며, 예를 들어 MSVDQA 정확도가 21.8% 상승한다.
- 멀티모달 입력 태스크에서 비디오와 오디오를 결합하면 단일 모달 입력보다 성능이 우수해 상호 모달 상관관계를 확인할 수 있다.
- ChatBridge는 이미지 기반 멀티모달 채팅에서 다수의 고정-LMM 벤치마크를 상회하지만, LLaVA와 같은 엔드-투-엔드 미세 조정 LLM과 같은 벤치마크에서 다소 뒤처진다.
- 정성적 분석은 ChatBridge가 멀티모달 지시, 복합 추론 및 다턴 대화를 처리할 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.