QUICK REVIEW

[論文レビュー] Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Jack W. Rae, Sebastian Borgeaud|arXiv (Cornell University)|Dec 8, 2021

Topic Modeling被引用数 242

ひとこと要約

本論文は、MassiveTextで訓練された280Bパラメータ（Gopher）までのTransformer言語モデルのスケーリングを分析し、152のタスクで評価し、大規模モデルの毒性、バイアス、安全性への影響を検討します。

ABSTRACT

Language modelling provides a step towards intelligent communication systems by harnessing large repositories of written human knowledge to better predict and understand the world. In this paper, we present an analysis of Transformer-based language model performance across a wide range of model scales -- from models with tens of millions of parameters up to a 280 billion parameter model called Gopher. These models are evaluated on 152 diverse tasks, achieving state-of-the-art performance across the majority. Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logical and mathematical reasoning see less benefit. We provide a holistic analysis of the training dataset and model's behaviour, covering the intersection of model scale with bias and toxicity. Finally we discuss the application of language models to AI safety and the mitigation of downstream harms.

研究の動機と目的

さまざまなタスクでスケールが性能に与える影響を探ることで、大規模言語モデルの構築を動機づける。
Gopherとそのファミリーを訓練する際に用いたデータセット、アーキテクチャ、訓練方針、インフラを説明する。
読み取り、知識、科学分野にわたるスケーリングによる性能向上を特徴づける。
モデルサイズが大きくなるにつれて毒性、バイアス、および安全性の考慮事項を調査し、下流の有害影響への影響を含めて検討する。

提案手法

RMSNormと相対的位置エンコーディングを用いたTransformerベースの自己回帰モデルを用いる。
44M〜280Bパラメータの6つのモデルを、2048の文脈窓で300Bトークンを用いて訓練する。
質の高いフィルタリングと重複排除を行った、複数ソースからなる英語データセットMassiveTextで訓練する。
言語モデリング、読解、事実検証、QA、常識、MMLU、BIG-benchにまたがる152タスクで評価する。
RealToxicityPromptsのプロンプトとPerspective APIを用いて毒性を分析し、バイアスと方言表現を評価する。

実験結果

リサーチクエスチョン

RQ1モデルのスケール（パラメータ数と計算量）が、広範なNLPタスクのパフォーマンスにどのように影響するか？
RQ2スケーリングによって最も利益を受けるタスクカテゴリはどれか、特に数学と推論においてスケールの効果が限定的な分野はどこか。
RQ3より大規模なスケールは毒性生成と毒性分類能力にどう影響するか？
RQ4Gopherのような非常に大規模な言語モデルの展開における安全性とバイアスの影響は何か、緩和策をどのように設計できるか？

主な発見

Gopher (280B) は、152のベンチマークにまたがる評価タスクのおよそ81%で、従来の最先端モデルを上回る。
スケールは、知識集約型タスク（例：読解、事実確認）および一般知識で大幅な向上をもたらす一方、数学・推論の改善は小さい。
RACEの読解において、Gopherは高校レベルのタスクで人間の性能に近づき、中等教育レベルのタスクではGPT-3を上回る。
大規模モデルは毒性検出を改善する一方、毒性のあるプロンプトによって毒性の高い出力を生成することがあり、微妙な安全性のトレードオフを浮き彫りにしている。
Gopherは小型のGopherモデルと比べてほとんどのタスクで性能が改善され、医薬・科学・技術・社会科学・人文学で顕著な向上を示す一方、推論の一部タスクではスケーリングの恩恵が限定的。
SOTAベースラインと比較して、Gopherは多くのベンチマークでSOTAに近づくか上回ることが多いが、複雑な領域では人間の専門家の性能には及ばない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。

[論文レビュー] Scaling Language Models: Methods, Analysis &amp; Insights from Training Gopher