[논문 리뷰] A Survey on Multimodal Large Language Models
다중모달 대형 언어 모델(MLLM)의 진행을 정리하고 요약하며 핵심 기법인 M-IT, M-ICL, M-CoT, LAVR를 자세히 설명하고 도전과 방향을 제시하는 조사.
Recently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional multimodal methods, suggesting a potential path to artificial general intelligence. To this end, both academia and industry have endeavored to develop MLLMs that can compete with or even better than GPT-4V, pushing the limit of research at a surprising speed. In this paper, we aim to trace and summarize the recent progress of MLLMs. First of all, we present the basic formulation of MLLM and delineate its related concepts, including architecture, training strategy and data, as well as evaluation. Then, we introduce research topics about how MLLMs can be extended to support more granularity, modalities, languages, and scenarios. We continue with multimodal hallucination and extended techniques, including Multimodal ICL (M-ICL), Multimodal CoT (M-CoT), and LLM-Aided Visual Reasoning (LAVR). To conclude the paper, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
연구 동기 및 목표
- 다중모달 대형 언어 모델(MLLM)과 관련 개념을 정의하고 형식화한다.
- 다음의 네 가지 주요 범주로 MLLMs에 대한 포괄적 분류 체계를 제공한다: Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain-of-Thought (M-CoT), 그리고 LLM-Aided Visual Reasoning (LAVR).
- MLLM에서 사용되는 주요 기법, 데이터 전략, 브리징 방법 및 평가 접근법을 요약한다.
- 현안 문제를 강조하고 이 분야의 유망한 연구 방향을 제시한다.
제안 방법
- MLLM와 그들의 지시/상호작용 패러다임의 형식적 정의를 제시한다.
- 기존 연구를 네 가지 장르(M-IT, M-ICL, M-CoT, LAVR)로 분류하고 이들의 아키텍처 및 데이터 요건을 논의한다.
- 데이터 수집 방법(벤치마크 적응, 자기지시, 하이브리드 구성)과 모달리티 브리징(학습 가능한 인터페이스 대 전문가 모델)을 설명한다.
- MLLM의 지시학습 정렬 사전학습 및 다중모달 데이터 구성에 대해 설명한다. 지시 템플릿과 평가 방법론 포함.
- ML-CoT 및 LAVR에서 학습 패러다임(미세조정, 소수샷, 제로샷)과 생성 패턴(채움 인페일링/예측)을 요약하고 평가 프레임워크(폐집 합/개방-집합) 논의.
![Figure 1 : Comparisons of three typical learning paradigms. The image is from [ 16 ] .](https://ar5iv.labs.arxiv.org/html/2306.13549/assets/x1.png)
실험 결과
연구 질문
- RQ1다중모달 추론을 가능하게 하는 핵심 패러다임은 무엇인가?
- RQ2데이터 구성 및 모달리티 브리징이 M-IT, M-ICL, M-CoT, LAVR 전반의 성능에 어떤 영향을 미치는가?
- RQ3다중모달 지시학습 및 시각 추론 시스템에 어떤 평가 전략이 적합한가?
- RQ4더 일반적인 능력을 향해 MLLMs를 발전시키기 위한 주요 도전과 잠재적 방향은 무엇인가?
주요 결과
- MLLMs는 네 가지 주요 기법을 활용한다: Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain-of-Thought (M-CoT), 및 LLM-Aided Visual Reasoning (LAVR).
- Data construction for M-IT includes benchmark adaptation, self-instruction, and hybrid composition to create multimodal instruction data.
- Modality bridging is typically achieved via learnable interfaces or expert models to translate visual content into text for LLMs.
- Evaluation distinguishes closed-set and open-set tasks, with additional benchmarks and human/AI scoring approaches for open-ended multimodal tasks.
- The survey highlights multiple future directions and ongoing challenges in MLLMs, including scalability, alignment, robustness, and multimodal reasoning capabilities.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.