[論文レビュー] Large Language Models: A Survey
大規模言語モデル(LLMs)の包括的な調査で、GPT、LLaMA、PaLMファミリー、トレーニング/データ、評価、拡張、データセット、ベンチマーク、および未解決の課題を扱う。
Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.
研究の動機と目的
- 統計的手法からトランスフォーマーベースのLLMsへの言語モデルの進化と、それらの新たな能力の出現を要約する。
- GPT、LLaMA、PaLMの3つの主要なLLMファミリーと注目すべきオープンソース/オープンアクセスモデルをレビューする。
- RLHFおよび指示調整を含むLLMの構築、微調整、拡張の方法論を概説する。
- LLMの訓練・微調整・ベンチマークに用いられるデータセットと評価指標を整理する。
- LLMの開発と展開における課題と今後の研究方向性を明らかにする。
提案手法
- 言語モデリングの歴史的波(統計的、ニューラル、事前学習、LLMs)を調査する。
- インコントекст学習、指示遵守、複数ステップ推論などのLLMの能力を特徴づける。
- GPT、LLaMA、PaLMファミリーを、派生モデルやオープンソースの取り組みを含めて比較する。
- 事前学習と微調整のパラダイムおよび拡張技術(RLHF、外部ツール)を説明する。
- LLMの訓練と評価に用いられるデータセットとベンチマークを要約する。

実験結果
リサーチクエスチョン
- RQ1現在のLLMファミリー(GPT、LLaMA、PaLM)の主要な能力と制約は何か?
- RQ2訓練データ、モデル規模、アーキテクチャはベンチマークでのLLMの性能にどう影響するか?
- RQ3LLMの有用性、安全性、信頼性を向上させる拡張および整合性手法は何か?
- RQ4タスク横断でLLMsを評価する際の標準的なデータセットと指標は何か?
- RQ5LLM研究の主要な未解決課題と今後の方向性は何か?
主な発見
- LLMsは文脈内学習、指示遵守、および多段階推論を含む出現的能力を示す。
- GPT、LLaMA、PaLMの3つの主要LLMファミリーは、公開性、規模、性能のトレードオフをそれぞれ示す。
- 指示調整とRLHFデータは、整合性とタスク性能に大きく影響する。
- LLMの訓練、微調整、評価を支えるデータセットとベンチマークの広範なエコシステム。
- 外部ツール、検索、継続的学習などの拡張戦略の範囲は、LLMベースのエージェントを可能にする。
- 分野はスケーラビリティ、安全性、汎化性における未解決課題と今後の研究方向性を特定している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。