QUICK REVIEW

[論文レビュー] Large Language Models

Michael R. Douglas|arXiv (Cornell University)|Jul 11, 2023

Topic Modeling被引用数 8

ひとこと要約

この論文は、大規模言語モデル（LLM）の開発、アーキテクチャ、スケーリング則、評価を概観し、文脈学習を論じ、能力と核心課題を強調します。

ABSTRACT

Artificial intelligence is making spectacular progress, and one of the best examples is the development of large language models (LLMs) such as OpenAI's GPT series. In these lectures, written for readers with a background in mathematics or physics, we give a brief history and survey of the state of the art, and describe the underlying transformer architecture in detail. We then explore some current ideas on how LLMs work and how models trained to predict the next word in a text are able to perform other tasks displaying intelligence.

研究の動機と目的

Symbolic AIと接続主義AIを歴史的文脈の中で区別する。
トランスフォーマーベースの言語モデリングの枠組みと自己回帰目的を説明する。
事前学習、ファインチューニング、文脈内学習の出現を説明する。
サイズとデータ量と性能の関係を示すスケーリング則と経験的根拠を提示する。
LLMのベンチマークと評価手法をレビューし、主要な未解決課題を概説する。

提案手法

統計的言語モデルと自己回帰サンプリングを定義する。
注意機構と位置エンコーディングを備えたトランスフォーマーアーキテクチャを説明する。
クロスエントロピー損失を最小化する訓練（Eq. 3）とP(w1…wL)からのサンプリングを説明する。
事前学習とファインチューニングのパラダイムと転移学習の役割を論じる。
サイズと計算量の関数としてのモデル性能のべき乗則的スケーリングを提示する（Figure 2、Table 1）。
ベンチマークスイート（BIG-bench、HELM）と推論ベンチマーク（NaturalProofs、MiniF2F、ProofNet）を調査する。

実験結果

リサーチクエスチョン

RQ1次語予測目的に照らして、LLMの顕著な能力を説明するものは何か？
RQ2推論、記憶、事実の正確性におけるLLMの主な制限と故障モードは何か？
RQ3スケーリング則はより大きなモデルとデータセットでの性能向上を信頼性をもって予測できるのか？
RQ4文脈内学習とプロンプト設計はタスクの一般化とゼロ/ Few-shot 能力にどのように寄与するのか？

主な発見

モデルとデータがスケールするにつれて、能力はスケーリング則と一致して多様なタスクで強い性能を示す。
適切なプロンプトと例があればパラメータ更新なしにタスク実行を可能にする文脈内学習。
LLMには事実的ハルカソンや象徴的/長鎖推論の弱さなど notable limitations が残る。
ベンチマークスイート（BIG-bench、HELM、lm-evaluation-harness）は翻訳、QA、推論、バイアス指標に渡る標準化評価を提供する。
いくつかの数学的・論理的ベンチマークは substantial proof-finding 能力を示す（20–80%）、ただし容易なケースは依然として困難。
スケーリング挙動と転移学習ダイナミクスは、計算コストが高いものの、モデル規模とデータの継続的な成長を動機づけている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。