QUICK REVIEW

[논문 리뷰] Efficient Multimodal Large Language Models: A Survey

Yizhang Jin, Jian Li|arXiv (Cornell University)|2024. 05. 17.

Natural Language Processing Techniques인용 수 14

한 줄 요약

포괄적인 다중모드 대형 언어 모델(MLLM)의 체계적 고찰로, 아키텍처, 효율적인 시각 및 언어 구성요소, 훈련/데이터 벤치마크 및 응용 분야를 상세히 다루며, 계층화된 분류법과 향후 방향성을 제시합니다.

ABSTRACT

In the past year, Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in tasks such as visual question answering, visual understanding and reasoning. However, the extensive model size and high training and inference costs have hindered the widespread application of MLLMs in academia and industry. Thus, studying efficient and lightweight MLLMs has enormous potential, especially in edge computing scenarios. In this survey, we provide a comprehensive and systematic review of the current state of efficient MLLMs. Specifically, we summarize the timeline of representative efficient MLLMs, research state of efficient structures and strategies, and the applications. Finally, we discuss the limitations of current efficient MLLM research and promising future directions. Please refer to our GitHub repository for more details: https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey.

연구 동기 및 목표

높은 훈련 및 추론 비용으로 인해 자원 효율적인 MLLMs의 필요성을 동기 부여한다.
아키텍처, 시각 모듈, LLM, 훈련, 데이터, 벤치마크, 응용 분야에 걸친 효율적 MLLMs의 체계적 분류 체계를 제공한다.
연구 및 배치를 안내하기 위해 대표적인 효율적 MLLMs와 그 구성 요소를 요약한다.
에지 친화적 MLLMs의 발전을 촉진하기 위한 한계점과 향후 방향을 강조한다.]
method=[

제안 방법

기존 문헌을 여섯 가지 범주로 정리한다: 아키텍처, 효율적 비전, 효율적 LLM, 훈련, 데이터 및 벤치마크, 응용 분야.
효율적 MLLMs의 각 구성 요소를 설명한다: 비전 인코더, 비전-언어 프로젝터, 그리고 소형 언어 모델.
토큰 압축, 컴팩트 아키텍처 및 효율적 구조(예: MoE, Mamba, 추론 가속) 기술을 조사한다.
효율적 MLLMs에서 사용되는 비전 인코더, 프로젝션 방법, 경량 LLM 백본의 변형을 비교한다.
사전 학습 및 평가에 사용되는 데이터와 벤치마크를 논의하고 실용적 응용을 나열한다.

실험 결과

연구 질문

RQ1어떤 아키텍처와 구성 요소가 큰 성능 저하 없이 자원 효율적인 MLLMs를 가능하게 하는가?
RQ2어떤 비전 인코더, 프로젝션 전략 및 컴팩트 LLM이 최적의 효율-정확도 트레이드오프를 제공하는가?
RQ3어떤 훈련 전략, 데이터 및 벤치마크가 효율적 MLLMs를 지지하며, 그것들이 어떻게 확장되는가?
RQ4에지 및 자원 제약 환경에서 현재 효율적 MLLMs의 실용적 응용 및 한계는 무엇인가?

주요 결과

효율적 MLLMs은 컴팩트한 LLM 백본(종종 3B 미만 매개변수)과 경량의 비전-언어 프로젝터를 사용하여 자원 소모를 줄인다.
다양한 비전 인코더와 교차 모달 융합 전략이 경쟁력 있는 성능을 낳을 수 있으며, 특정 인코더가 태스크를 일관되게 지배하지는 않는다.
시각 토큰 압축, 다중 시야 입력, 다중 스케일 정보 융합은 성능을 유지하면서 계산량을 크게 줄인다.
MoE 및 Mamba와 같은 효율적 구조와 추론 가속 기술은 확장 가능하고 빠른 다중모달 추론을 가능하게 한다.
포괄적인 분류 체계와 GitHub 저장소가 최첨단 방법들을 정리하고 지속적인 업데이트 및 재현성을 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.