[論文レビュー] A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
この調査はNLP、CV、グラフ学習にまたがる事前学習基盤モデル(PFMs)を検討し、BERTからChatGPTへの進化をたどり、アーキテクチャ、事前学習タスク、統一PFMs、効率性、セキュリティ、今後の課題を論じる。
Pretrained Foundation Models (PFMs) are regarded as the foundation for various downstream tasks with different data modalities. A PFM (e.g., BERT, ChatGPT, and GPT-4) is trained on large-scale data which provides a reasonable parameter initialization for a wide range of downstream applications. BERT learns bidirectional encoder representations from Transformers, which are trained on large datasets as contextual language models. Similarly, the generative pretrained transformer (GPT) method employs Transformers as the feature extractor and is trained using an autoregressive paradigm on large datasets. Recently, ChatGPT shows promising success on large language models, which applies an autoregressive language model with zero shot or few shot prompting. The remarkable achievements of PFM have brought significant breakthroughs to various fields of AI. Numerous studies have proposed different methods, raising the demand for an updated survey. This study provides a comprehensive review of recent research advancements, challenges, and opportunities for PFMs in text, image, graph, as well as other data modalities. The review covers the basic components and existing pretraining methods used in natural language processing, computer vision, and graph learning. Additionally, it explores advanced PFMs used for different data modalities and unified PFMs that consider data quality and quantity. The review also discusses research related to the fundamentals of PFMs, such as model efficiency and compression, security, and privacy. Finally, the study provides key implications, future research directions, challenges, and open problems in the field of PFMs. Overall, this survey aims to shed light on the research of the PFMs on scalability, security, logical reasoning ability, cross-domain learning ability, and the user-friendly interactive ability for artificial general intelligence.
研究の動機と目的
- NLP、GLを横断するPFMsの発展を調査し、BERTからChatGPTまでの歴史をたどる。
- モダリティを横断する基本的な構成要素、学習パラダイム、事前学習タスクを分析する。
- 統一PFMs、モデル効率、圧縮、セキュリティ、プライバシーなどの高度なトピックを論じる。
- PFMsの今後の研究を指針づける課題と未解決問題を特定する。
- 付録を通じてPFMsに関連する評価指標とデータセットについての指針を提供する。
提案手法
- TransformerベースのPFMsを支配的なアーキテクチャとして記述する。
- 学習機構(教師あり、半教師あり、SSL、RL)を分類し、事前学習における役割を説明する。
- NLPの事前学習タスク(MLM、DAE、RTD、NSP、SOP)とCV/GLのSSL戦略を要約する。
- 自己回帰型、文脈依存型、置換LMなどのモデル設計選択と主要モデル(例:GPT、BERT、XLNet、MPNet)を概説する。
- 出力を人間の好みに合わせるために用いられる指示整合化手法(例:RLHF、思考の連鎖)を論じる。
- 統一PFMs、効率性、圧縮、セキュリティ、プライバシーといった高度なトピックに関する議論を統合する。
実験結果
リサーチクエスチョン
- RQ1NLP、CV、GLを横断するPFMsを可能にする中核的な構成要素と学習機構は何か?
- RQ2モダリティ間で事前学習タスクはどのように進化し、表現学習と下流性能を向上させたか?
- RQ3自己回帰型、文脈依存型、置換型言語モデルの設計上のトレードオフは?
- RQ4多モーダルデータを横断する統一PFMsの現状と残る課題は?
- RQ5PFMsの効率性、セキュリティ、プライバシーにおける未解決課題と今後の方向性は?
主な発見
- TransformersはNLP、CV、GLを横断したスケーラブルなPFMsを可能にする中核アーキテクチャのままである。
- 事前学習タスクと学習機構(SSL、RL、教師あり信号)は堅牢な特徴表現と迅速なファインチューニングを支える。
- NLPの事前学習タスクには MLM、DAE、RTD、NSP、SOP が含まれ、XLNetとMPNetのような拡張は置換/ハイブリッド目的を導入する。
- テキスト、画像、音声を処理できる統一PFMsの出現傾向は、GPT-4などのモデルで示されている。
- 高度なトピックはモデルの効率性、圧縮、セキュリティ、プライバシーを強調し、実用的なデプロイとガバナンスの問題に対処する。
- この調査は拡張性、横断ドメイン学習、推論、および対話的AI機能における将来の研究方向性を強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。