Skip to main content
QUICK REVIEW

[논문 리뷰] A Review of Multi-Modal Large Language and Vision Models

Kilian Carolan, Laura Fennelly|arXiv (Cornell University)|2024. 03. 28.
Multimodal Machine Learning Applications인용 수 8
한 줄 요약

이 논문은 다중 모달 대형 언어 모델(MM-LLMs)의 현황을 조사하며, 역사, 아키텍처, 개방형 vs 독점 모델, 학습/튜닝 방법, 윤리 및 평가를 다룹니다. 또한 다중 모달 기능과 비전-언어 모델을 갖춘 주요 텍스트 전용 LLM도 검토합니다.

ABSTRACT

Large Language Models (LLMs) have recently emerged as a focal point of research and application, driven by their unprecedented ability to understand and generate text with human-like quality. Even more recently, LLMs have been extended into multi-modal large language models (MM-LLMs) which extends their capabilities to deal with image, video and audio information, in addition to text. This opens up applications like text-to-video generation, image captioning, text-to-speech, and more and is achieved either by retro-fitting an LLM with multi-modal capabilities, or building a MM-LLM from scratch. This paper provides an extensive review of the current state of those LLMs with multi-modal capabilities as well as the very recent MM-LLMs. It covers the historical development of LLMs especially the advances enabled by transformer-based architectures like OpenAI's GPT series and Google's BERT, as well as the role of attention mechanisms in enhancing model performance. The paper includes coverage of the major and most important of the LLMs and MM-LLMs and also covers the techniques of model tuning, including fine-tuning and prompt engineering, which tailor pre-trained models to specific tasks or domains. Ethical considerations and challenges, such as data bias and model misuse, are also analysed to underscore the importance of responsible AI development and deployment. Finally, we discuss the implications of open-source versus proprietary models in AI research. Through this review, we provide insights into the transformative potential of MM-LLMs in various applications.

연구 동기 및 목표

  • 대형 언어 모델의 역사적 발전과 그 능력에 대한 트랜스포머 어텐션의 역할을 요약한다.
  • LLM의 다중 모달 확장을 평가하고 시각적 구성 요소가 기본 LLM에 어떻게 통합되는지 분석한다.
  • 비용, 투명성, 윤리적 고려 측면에서 오픈 소스와 독점 LLM을 비교한다.
  • 모델을 업무에 맞게 조정하기 위해 일반적으로 사용되는 미세 조정 및 프롬프트 엔지니어링 기법을 검토한다.
  • MM-LLMs 및 이들의 배치와 관련된 평가 벤치마크와 윤리적 도전을 논의하고 이를 완화하는 방법을 제시한다.]
  • method:[

제안 방법

  • 핵심 LLM 및 MM-LLM 모델과 그 아키텍처를 검토하고 종합한다.
  • 어텐션 메커니즘과 변형들(MHA, MQA, GQA) 및 그 계산적 트레이드오프를 설명한다.
  • 훈련/미세 조정 접근 방식(LoRA, QLoRA, SFT, RLHF)과 그 함의를 요약한다.
  • 오픈 소스 대 독점 모델의 라이선스 및 데이터 고려 사항을 분석한다.
  • MM-LLMs 및 LLM을 평가하기 위한 평가 벤치마크와 방법을 논의한다.
  • 데이터 편향, 모델 오용 및 라이선스/접근 문제와 같은 윤리적 이슈를 강조하고 오픈-소스의 개방성과 규제 함의를 다룬다.
Figure 1: A summary of how an input sequence is decomposed into query, key, and value vectors across the various attention mechanisms, taken from [ 31 ] .
Figure 1: A summary of how an input sequence is decomposed into query, key, and value vectors across the various attention mechanisms, taken from [ 31 ] .

실험 결과

연구 질문

  • RQ1LLM 및 MM-LLM의 주요 발전은 무엇이며 아키텍처 및 학습 측면에서 어떻게 차이가 나는가?
  • RQ2시각적 구성 요소가 LLM에 어떻게 통합되어 MM-LLM이 형성되며 어떤 튜닝 방법이 가장 효과적인가?
  • RQ3비용, 투명성 및 윤리 측면에서 오픈 소스와 독점 LLM 간의 트레이드오프는 무엇인가?
  • RQ4MM-LLMs를 평가하는 벤치마크는 무엇이며 벤치마킹에서 어떤 도전이 나타나는가?
  • RQ5MM-LLMs의 개발 및 배치에서 어떤 윤리적 고려가 등장하며 이를 어떻게 완화할 수 있는가?]
  • RQ6key_findings':['MM-LLMs은 이미지, 비디오 및 오디오에 대한 LLM의 능력을 리토핏팅하거나 처음부터 구축하여 이미지 캡션 작성 및 텍스트-비디오 생성과 같은 응용을 가능하게 한다.','어텐션 메커니즘(셀프 어텐션, MHA, MQA, GQA)은 트랜스포머 기반 모델의 핵심으로 성능과 자원 사용에 영향을 미친다.','오픈 소스 LLM들(LLaMA 계열, Falcon, Mistral 등)은 투명성과 비용 이점을 제공하지만 라이선스 및 독점 모델에 비해 성능 차이가 있다.','미세 조정 방법(LoRA, QLoRA, SFT)과 RLHF는 비용과 효율성을 관리하면서 모델을 맞춤화하는 일반적인 전략이다.','윤리적 우려로 데이터 편향, 모델 오용, 라이선스/접근 이슈가 있으며, 오픈 대 클로즈드 모델과 규제 영향에 대한 논의가 있다.','LLM/MM-LLM의 평가 및 벤치마킹은 표준 NLP 및 다중 모달 벤치마크에 의존하며 실제 성능과 안전성 고려에 중점을 둔다.'],
  • RQ7table_headers: [],

주요 결과

  • MM-LLMs은 이미지, 비디오 및 오디오에 대한 LLM의 능력을 노출시키거나 새로 구축하여 이미지 자막 작성 및 텍스트-비디오 생성 같은 응용을 가능하게 한다.
  • 어텐션 메커니즘(셀프 어텐션, MHA, MQA, GQA)은 트랜스포머 기반 모델의 핵심이며 성능과 자원 사용에 영향을 준다.
  • 오픈 소스 LLM들(LLaMA 계열, Falcon, Mistral 등)은 투명성과 비용 이점이 있지만 라이선스 및 독점 모델에 비해 성능 차이가 있다.
  • 미세 조정 방법(LoRA, QLoRA, SFT)과 RLHF는 비용과 효율성을 관리하면서 모델을 맞춤화하는 일반적인 전략이다.
  • 윤리적 우려로 데이터 편향, 모델 남용, 라이선스/접근 문제를 포함하며, 오픈 vs 폐쇄 모델 및 규제 함의에 대한 논의가 있다.
  • LLM/MM-LLM의 평가 및 벤치마킹은 표준 NLP 및 다중 모달 벤치마크에 의존하며 실용적 성능과 안전성 고려에 중점을 둔다.
Figure 2: A comparative summary of different training methods used for the reviewed MM-LLMs, all which follow a two-stage training process (taken from [ 80 ] ).
Figure 2: A comparative summary of different training methods used for the reviewed MM-LLMs, all which follow a two-stage training process (taken from [ 80 ] ).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.