Skip to main content
QUICK REVIEW

[论文解读] GPT-NeoX-20B: An Open-Source Autoregressive Language Model

Sid Black, Stella Biderman|arXiv (Cornell University)|Apr 14, 2022
Topic Modeling被引用 69
一句话总结

GPT-NeoX-20B 是一个拥有 200 亿参数的开源自回归语言模型,在 Pile 上训练,提供权重、训练/评估代码,以及部分训练检查点,供研究扩展、AI 安全性与可解释性研究之用。

ABSTRACT

We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly available weights at the time of submission. In this work, we describe \model{}'s architecture and training and evaluate its performance on a range of language-understanding, mathematics, and knowledge-based tasks. We find that GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in performance when evaluated five-shot than similarly sized GPT-3 and FairSeq models. We open-source the training and evaluation code, as well as the model weights, at https://github.com/EleutherAI/gpt-neox.

研究动机与目标

  • 展示一个 200 亿参数的大型开源自回归语言模型的架构与训练。
  • 评估 GPT-NeoX-20B 在语言理解、知识基础与数学任务上的表现。
  • 提供模型权重、检查点和评估工具的开放获取,以促进研究。

提出的方法

  • 采用接近 GPT-3 的解码器架构,并在效率方面作出改动,如旋转位置嵌入和并行 Attention/FF 层。
  • 在 Pile 数据集上使用分布式训练进行训练,并通过张量/流水线并行和 ZeRO 优化器管理内存。
  • 使用基于 BPE 的分词器,具有 50,257 个词汇标记,针对 Pile 做了定制并修改了以空格分隔的标记化。
  • 使用一种稳定深度网络的权重初始化方案,并完全使用稠密层。
  • 使用 EleutherAI 语言模型评测框架(Language Model Evaluation Harness)对照 GPT-3、FairSeq 与 GPT-J-6B 基线进行评估。

实验结果

研究问题

  • RQ1GPT-NeoX-20B 在自然语言理解、基于知识的任务和数学任务上的表现,与同类公开模型相比如何?
  • RQ2与 GPT-J-6B 与 FairSeq 模型相比,少样本提示对 GPT-NeoX-20B 的影响有多大?
  • RQ3架构与数据选择(分词器、旋转嵌入、并行层)对模型性能与训练效率有何影响?
  • RQ4一个公开发布的 200 亿参数模型是否能为 AI 安全性、扩展性和可解释性研究提供有意义的洞见?

主要发现

  • GPT-NeoX-20B 在某些任务上超过了部分 FairSeq 模型,在其他任务上表现不佳,总体在零样本/五样本设置下进行了 32 次评估,取得 22 场胜利、4 场失利、6 处于误差范围内的结果。
  • 该模型在少样本学习方面显示出显著的提升,从五样本提示中获得的提升比同等规模的 GPT-3 和 FairSeq 模型更大。
  • GPT-NeoX-20B 是一个有效的少样本学习者,与 GPT-J-6B 和 FairSeq 模型相比,五样本提示带来更大收益。
  • 作者发布了模型权重、训练/评估代码以及部分训练检查点,以实现广泛的研究访问和结果复现实用。
  • 若干设计选择(旋转嵌入、并行 Attention/FF 层、分词器)使 GPT-NeoX-20B 与 GPT-3 区分开来,并影响性能和训练效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。