[論文レビュー] Emergent Abilities of Large Language Models
この論文は大規模言語モデルにおける emergent abilities を定義し、調査しており、特定のタスクは大規模スケールでのみ達成可能となり、小さなモデルからは予測できないことを示している。少数ショット prompting と augmented prompting にまたがる emergent tasks を網羅し、説明の可能性、リスク、将来の方向性を論じる。
Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of downstream tasks. This paper instead discusses an unpredictable phenomenon that we refer to as emergent abilities of large language models. We consider an ability to be emergent if it is not present in smaller models but is present in larger models. Thus, emergent abilities cannot be predicted simply by extrapolating the performance of smaller models. The existence of such emergence implies that additional scaling could further expand the range of capabilities of language models.
研究の動機と目的
- 事前学習されたTransformer言語モデルの文脈で emergent abilities を定義する。
- few-shot prompting および augmented prompting メソッドにわたる観察された emergent tasks を調査する。
- スケーリングと emergent に関連する要因、リスク、将来の方向性を論じる。
提案手法
- 小さなモデルには存在せず、より大きなモデルで現れる能力として emergent を定義する。
- scale 軸として訓練 FLOPs またはパラメータ数を用いたスケーリング曲線を描画・分析し、位相遷移のような振る舞いを識別する。
- 先行研究(BIG-Bench、MMLU、TruthfulQA など)から emergent abilities を整理・要約する。
- prompting パラダイム(few-shot、instruction tuning、scratchpad など)によって emergent abilities を分類する。
- emergent abilities のスケールを示す表(訓練 FLOPs とパラメータ)を提供する。
- emergent の説明の可能性と、スケーリング以外のデータ品質、アーキテクチャ、目的関数などの代替案を議論する。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデルにおける emergent ability とは何か?
- RQ2モデルをスケールさせるとどのタスクが emergent となり、どのスケールで現れるのか?
- RQ3 augmented prompting と instruction-tuning は大規模スケールでのみ emergent な利益をもたらすのか?
- RQ4単純なスケーリングを超えた emergent abilities を説明する可能性のある機構は何か?
主な発見
- Emergent abilities は十分に大きなモデル規模でのみ現れ、小さなモデルから外挿して予測できない。
- 大規模ファミリに跨る emergent few-shot prompting タスクの Eight つの例が見られる(BIG-Bench タスクを含む)。
- Augmented prompting 戦略(例:チェーン・オブ・ソート、instruction tuning) は大規模スケールで emergent を示し、時には tens to hundreds of billions of parameters or equivalent FLOPs を必要とする。
- Some tasks (e.g., WiC) show emergence only at very large scales or with specific architectures (PaLM vs GPT-3/Chinchilla).
- Emergence is not solely about scale; data quality, architecture, and training objectives can influence when and how abilities emerge.
- Emergent risks accompany scaling (bias, toxicity, memorization) and require governance and mitigation strategies.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。