[論文レビュー] Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey
この論文は、大規模マルチモーダル事前学習モデル(MM-PTMs)をレビューし、背景・データ・アーキテクチャ・目的・下流タスク・今後の方向性を扱い、更新され続けるモデルリストを提供する。
With the urgent demand for generalized deep models, many pre-trained big models are proposed, such as BERT, ViT, GPT, etc. Inspired by the success of these models in single domains (like computer vision and natural language processing), the multi-modal pre-trained big models have also drawn more and more attention in recent years. In this work, we give a comprehensive survey of these models and hope this paper could provide new insights and helps fresh researchers to track the most cutting-edge works. Specifically, we firstly introduce the background of multi-modal pre-training by reviewing the conventional deep learning, pre-training works in natural language process, computer vision, and speech. Then, we introduce the task definition, key challenges, and advantages of multi-modal pre-training models (MM-PTMs), and discuss the MM-PTMs with a focus on data, objectives, network architectures, and knowledge enhanced pre-training. After that, we introduce the downstream tasks used for the validation of large-scale MM-PTMs, including generative, classification, and regression tasks. We also give visualization and analysis of the model parameters and results on representative downstream tasks. Finally, we point out possible research directions for this topic that may benefit future works. In addition, we maintain a continuously updated paper list for large-scale pre-trained multi-modal big models: https://github.com/wangxiao5791509/MultiModal_BigModels_Survey. This paper has been published by the journal Machine Intelligence Research (MIR), https://link.springer.com/article/10.1007/s11633-022-1410-8, DOI: 10.1007/s11633-022-1410-8, vol. 20, no. 4, pp. 447-482, 2023.
研究の動機と目的
- ビジョン、言語、音声など、モダリティ間のマルチモーダル事前学習の歴史と発展を要約する。
- MM-PTMsのタスク範囲、課題、および単一モダリティモデルと比較した利点を定義する。
- MM-PTMsを支えるデータ・アーキテクチャ・目的・知識強化手法を分析する。
- 下流タスクと評価実践を調査し、モデルパラメータと結果の可視化・分析を行う。
- 将来の研究方向を提案し、最新の大規模MM-PTMsとデータセットのリストを維持する。
提案手法
- 従来の深層学習とNLP・CV・音声分野における単一モダリティ事前学習の背景をレビューする。
- MM-PTMタスク定義・課題・利点を定義する。
- データ・ネットワークアーキテクチャ・最適化目的・知識強化事前学習など、主要な要素を論じる。
- 生成・分類・回帰などの下流タスクと評価設定をカタログ化する。
- 代表的なタスクでのモデルパラメータと結果を可視化・分析する。
- 大規模MM-PTMsの継続的に更新される参考文献とデータセットリストを提供する。
実験結果
リサーチクエスチョン
- RQ1MM-PTMsとは何か、なぜ単一モダリティの事前学習より有利なのか?
- RQ2大規模なMM-PTMsを構築するために使用されるデータ・アーキテクチャ・目的は何か?
- RQ3さまざまなモダリティに跨る下流タスクでMM-PTMsはどのように評価されているか?
- RQ4大規模なMM-PTMsの主要な課題と今後の方向性は何か?
主な発見
- 本調査は、視覚と言語モデルを超えた広範なマルチモーダルな視点を提供する。
- データ取得・クリーニング、アーキテクチャ設計、目的構築をMM-PTMsの中核課題として特定している。
- 対照学習、モダリティ整合、マスク化モデリングなど、広範な事前学習目的を文書化している。
- 下流タスクと評価指標を要約し、MM-PTMsを検証する。
- 大規模モデルのパラメータ、ハードウェア要件、訓練のコツについての洞察を提供する。
- 大規模MM-PTMsとデータセットの継続的な更新リストを維持し、発展を追跡する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。