QUICK REVIEW

[論文レビュー] GPT-NeoX-20B: An Open-Source Autoregressive Language Model

Sid Black, Stella Biderman|arXiv (Cornell University)|Apr 14, 2022

Topic Modeling被引用数 69

ひとこと要約

GPT-NeoX-20B は 20B パラメータのオープンソースの自己回帰言語モデルで、Pileで訓練され、重み、訓練/評価コード、および研究のスケーリング、AI安全性、解釈可能性のための部分的に訓練されたチェックポイントが提供されている。

ABSTRACT

We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly available weights at the time of submission. In this work, we describe \model{}'s architecture and training and evaluate its performance on a range of language-understanding, mathematics, and knowledge-based tasks. We find that GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in performance when evaluated five-shot than similarly sized GPT-3 and FairSeq models. We open-source the training and evaluation code, as well as the model weights, at https://github.com/EleutherAI/gpt-neox.

研究の動機と目的

20B パラメータの大規模オープンソース自己回帰型言語モデルのアーキテクチャと訓練を示す。
自然言語理解、知識ベース、数学的タスクにおける GPT-NeoX-20B を評価する。
研究を促進するため、モデル重み・チェックポイント・評価ツールを公開アクセスで提供する。

提案手法

効率性のため、ロータリーポジショナル埋め込みや並列のAttention/FF 層などの逸脱を含む GPT-3 に似たデコーダーアーキテクチャを採用する。
メモリ管理のため、テンソル/パイプライン並列性と ZeRO オプティマイザを用いた分散訓練で Pile データセット上で訓練する。
Pile に合わせて調整した 50,257 の語彙トークンを用いた BPE ベースのトークナイザーと、修正された空白区切りトークン化を使用する。
深層ネットワークを安定化させることを目的とした初期化スキームで重みを初期化し、密結合層のみを使用する。
GPT-3、FairSeq、GPT-J-6B のベースラインに対して EleutherAI Language Model Evaluation Harness を用いて評価する。

実験結果

リサーチクエスチョン

RQ1比較可能な公開モデルと比較して、自然言語理解・知識ベース・数学タスクでの GPT-NeoX-20B の性能はどうか。
RQ2GPT-NeoX-20B における few-shot プロンプトの影響は、GPT-J-6B および FairSeq モデルと比較してどうなるか。
RQ3アーキテクチャとデータの選択（トークナイザー、ロータリ embeddings、並列層）がモデルのパフォーマンスと訓練効率に及ぼす影響は？
RQ4公開リリース済みの 20B パラメータモデルは、AI 安全性、スケーリング、解釈可能性の研究に意味のある洞察を提供できるか。

主な発見

GPT-NeoX-20B はいくつかのタスクで一部の FairSeq モデルより優れており、他のタスクでは劣る。32 回の評価（ゼロショット/ファイブショット設定）で 22 勝、4 敗、6 が誤差内。
このモデルは特にファイブショットの学習利得が顕著で、ファイブショットプロンプトからの改善が、同程度の規模の GPT-3 および FairSeq モデルより大きい。
GPT-NeoX-20B は効果的なファ fifteen-shot learner であり、ファイブショットプロンプトからの利得は GPT-J-6B および FairSeq モデルより大きい。
著者らは、幅広い研究アクセスと再現性を可能にするために、モデル重み・訓練/評価コード・部分的に訓練済みのチェクポイントを公開する。
いくつかの設計選択（ロータリ embeddings、並列の Attention/FF 層、トークナイザー）が GPT-NeoX-20B を GPT-3 から区別し、性能と訓練効率に影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。