Skip to main content
QUICK REVIEW

[논문 리뷰] Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Xiao Wang, Guangyao Chen|arXiv (Cornell University)|2023. 02. 20.
Multimodal Machine Learning Applications인용 수 13
한 줄 요약

이 논문은 대규모 다중 모달 사전 학습 모델(MM-PTM)을 다루며 배경, 데이터, 아키텍처, 목표, 다운스트림 작업, 향후 방향을 커버하고 지속적으로 업데이트되는 모델 목록을 제공합니다.

ABSTRACT

With the urgent demand for generalized deep models, many pre-trained big models are proposed, such as BERT, ViT, GPT, etc. Inspired by the success of these models in single domains (like computer vision and natural language processing), the multi-modal pre-trained big models have also drawn more and more attention in recent years. In this work, we give a comprehensive survey of these models and hope this paper could provide new insights and helps fresh researchers to track the most cutting-edge works. Specifically, we firstly introduce the background of multi-modal pre-training by reviewing the conventional deep learning, pre-training works in natural language process, computer vision, and speech. Then, we introduce the task definition, key challenges, and advantages of multi-modal pre-training models (MM-PTMs), and discuss the MM-PTMs with a focus on data, objectives, network architectures, and knowledge enhanced pre-training. After that, we introduce the downstream tasks used for the validation of large-scale MM-PTMs, including generative, classification, and regression tasks. We also give visualization and analysis of the model parameters and results on representative downstream tasks. Finally, we point out possible research directions for this topic that may benefit future works. In addition, we maintain a continuously updated paper list for large-scale pre-trained multi-modal big models: https://github.com/wangxiao5791509/MultiModal_BigModels_Survey. This paper has been published by the journal Machine Intelligence Research (MIR), https://link.springer.com/article/10.1007/s11633-022-1410-8, DOI: 10.1007/s11633-022-1410-8, vol. 20, no. 4, pp. 447-482, 2023.

연구 동기 및 목표

  • 다양한 모달리티(비전, 언어, 오디오 등)를 가로질러 다중 모달 사전 학습의 역사와 발전을 요약합니다.
  • MM-PTM의 작업 범위, 도전 과제 및 단일 모달 모델과의 비교 이점을 정의합니다.
  • MM-PTMs를 구동하는 데이터, 아키텍처, 목표 및 지식 강화(pre-training) 접근법을 분석합니다.
  • 하위 작업과 평가 관행을 조사하고, 모델 매개변수 및 결과의 시각화와 분석을 제공합니다.
  • 향후 연구 방향을 제안하고 대규모 MM-PTMs 및 데이터 세트의 최신 목록을 유지합니다.

제안 방법

  • 전통적 딥러닝의 배경 및 NLP, CV, 음성 분야의 단일 모달 사전 학습을 검토합니다.
  • MM-PTM 작업 정의, 도전 과제 및 이점을 정의합니다.
  • 데이터, 네트워크 아키텍처, 최적화 목표 및 지식 강화 사전학습의 핵심 구성요소를 논의합니다.
  • 다운스트림 작업(생성, 분류, 회귀)과 평가 설정을 카탈로그합니다.
  • 대표 작업에서 모델 매개변수와 결과를 시각화하고 분석합니다.
  • 대규모 MM-PTMs에 대한 지속적으로 업데이트되는 참고문헌 및 데이터세트를 제공합니다.

실험 결과

연구 질문

  • RQ1MM-PTMs란 무엇이며 왜 단일 모달 사전 학습보다 유리한가요?
  • RQ2대규모 MM-PTMs를 구축하는 데 사용되는 데이터, 아키텍처 및 목표는 무엇인가요?
  • RQ3다양한 모달리티의 다운스트림 작업에서 MM-PTMs는 어떻게 평가되나요?
  • RQ4대규모 MM-PTMs의 주요 도전 과제와 향후 방향은 무엇인가요?

주요 결과

  • 본 고서는 비전-언어 모델을 넘어 다중 모달 관점을 넓게 다룹니다.
  • 데이터 수집/정제, 아키텍처 설계, 목표 구성은 MM-PTMs의 핵심 과제로 식별됩니다.
  • 대조 학습, 모달리티 매칭, 마스킹 모델링 등 다양한 사전 학습 목표를 문서화합니다.
  • 다운스트림 작업 및 MM-PTMs를 검증하는 평가 지표를 요약합니다.
  • 대형 모델의 매개변수, 하드웨어 고려사항 및 학습 기법에 대한 통찰을 제공합니다.
  • 대규모 MM-PTMs 및 데이터세트의 지속적인 업데이트 목록을 유지하여 발전 상황을 추적합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.