QUICK REVIEW

[논문 리뷰] X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages

Feilong Chen, Minglun Han|arXiv (Cornell University)|2023. 05. 07.

Multimodal Machine Learning Applications인용 수 21

한 줄 요약

X-LLM은 이미지, 비디오, 음성을 언어와 유사한 표현(X2L 인터페이스)으로 변환하고 이를 얼려둔 LLM과 통합함으로써 다중모달 능력을 부트스트랩하며, 6B 파라미터의 ChatGLM으로 GPT-4 수준의 다중모달 채팅 성능을 달성한다.

ABSTRACT

Large language models (LLMs) have demonstrated remarkable language abilities. GPT-4, based on advanced LLMs, exhibits extraordinary multimodal capabilities beyond previous visual language models. We attribute this to the use of more advanced LLMs compared with previous multimodal models. Unfortunately, the model architecture and training strategies of GPT-4 are unknown. To endow LLMs with multimodal capabilities, we propose X-LLM, which converts Multi-modalities (images, speech, videos) into foreign languages using X2L interfaces and inputs them into a large Language model (ChatGLM). Specifically, X-LLM aligns multiple frozen single-modal encoders and a frozen LLM using X2L interfaces, where ``X'' denotes multi-modalities such as image, speech, and videos, and ``L'' denotes languages. X-LLM's training consists of three stages: (1) Converting Multimodal Information: The first stage trains each X2L interface to align with its respective single-modal encoder separately to convert multimodal information into languages. (2) Aligning X2L representations with the LLM: single-modal encoders are aligned with the LLM through X2L interfaces independently. (3) Integrating multiple modalities: all single-modal encoders are aligned with the LLM through X2L interfaces to integrate multimodal capabilities into the LLM. Our experiments show that X-LLM demonstrates impressive multimodel chat abilities, sometimes exhibiting the behaviors of multimodal GPT-4 on unseen images/instructions, and yields a 84.5\% relative score compared with GPT-4 on a synthetic multimodal instruction-following dataset. And we also conduct quantitative tests on using LLM for ASR and multimodal ASR, hoping to promote the era of LLM-based speech recognition.

연구 동기 및 목표

LLMs에서 LLM 아키텍처를 완전히 재설계하지 않고 다중모달 능력을 동기 부여하고 활성화한다.
시각적 및 청각 정보를 LLM용 언어 임베딩으로 변환하는 보편적인 X2L 프레임워크를 제안한다.
인코더와 LLM을 고정한 채 가벼운 인터페이스를 학습시켜도 강력한 다중모달 성능을 낼 수 있음을 보여준다.
영어 이미지-텍스트 정렬 파라미터를 중국어로의 이전 가능성을 보여주고, 다중언어 간 다중모달 학습을 가능하게 한다.
접근 가능하고 오픈 소스인 중국어 다중모달 지시 데이터셋과 벤치마크를 제공하여 LLM 기반 다중모달 연구를 발전시킨다.

제안 방법

얼려둔 단일 모달 인코더(image, video, speech)를 X2L 인터페이스(image interface, video interface, speech interface)를 통해 얼려둔 LLM과 정렬한다.
BLIP-2의 Q-Former를 이용해 시각 정보를 준언어적 임베딩으로 변환하고 LLM 차원에 맞추는 어댑터를 사용한다.
토큰 수준 음성 임베딩을 위한 CIF 기반 ASR과 LLM 공간으로 매핑하는 S-Adaptor를 사용한다.
세 단계로 학습한다: 1단계는 다중모달 정보를 언어로 변환, 2단계는 X2L과 LLM의 정렬, 3단계는 모든 모달리티를 통합하고 소형 다중모달 지시 데이터셋으로 미세조정.
타깃 학습을 위한 이미지-텍스트, 음성-텍스트, 비디오-텍스트, 그리고 이미지-텍스트-음성 지시를 포함하는 고품질 다중모달 지시 데이터셋을 구축한다.
다중모달 채팅 및 ASR 능력을 시연하고 기존의 비주얼-언어 모델과 비교한다.

실험 결과

연구 질문

RQ1다중모달 정보(이미지, 음성, 비디오)를 효과적으로 언어와 같은 표현으로 변환해 얼려둔 LLM과 통합할 수 있는가?
RQ2다중모달 LLM을 구축할 때 영어 이미지-텍스트 정렬 파라미터를 중국어로 이전하는 것이 어떤 영향을 미치는가?
RQ3세 단계(X2L) 학습 전략이 다중모달 공동 학습과 비교해 다중모달 능력을 유도하는 데 어떤 차이를 보이는가?
RQ4상대적으로 작은 LLM(6B 파라미터)이 중국어 과제에서 GPT-4 수준의 다중모달 성능을 달성할 수 있는가?
RQ5간결한 다중모달 지시 데이터셋의 도입이 다중모달 통합 및 과제 성능을 더 향상시키는가?

주요 결과

모델	대화	자세한 설명	복합적 추론	전체
LLaVA	83.1	75.3	96.5	85.1
X-LLM	85.4	83.5	84.6	84.5
w/ 4M	74.8	83.7	86.5	81.9
w/ 4M no init	64.7	71.9	85.0	73.8

X-LLM은 합성 다중모달 지시 수행 데이터셋에서 GPT-4에 근접한 다중모달 채팅 능력을 보인다(84.5% relative score).
BLIP2의 Q-Former 파라미터를 활용하면 영어 이미지-텍스트 정렬을 중국어로 효과적으로 이전하는 데 도움이 된다.
학습 중 이미지-텍스트 데이터의 양을 늘리면 성능이 향상되지만, 저질 데이터에 과도히 의존하면 복합적 추론 성능이 감소할 수 있다.
X-LLM은 강력한 이미지 이해를 보이며 비디오 및 음성 입력 확장을 통해 다중모달 질의에 적용 가능하다.
ASR 및 다중모달 ASR 결과 X-LLM은 경쟁력이 있지만 모든 구성 요소가 공동으로 학습되지 않으면 CIF 기반 ASR 모델보다 뒤처질 수 있다.
세 단계 학습 전략은 제한된 공동 다중모달 데이터로도 효율적인 다중모달 통합을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.