[논문 리뷰] GPT-NeoX-20B: An Open-Source Autoregressive Language Model
GPT-NeoX-20B는 Pile에서 학습된 200억 매개변수의 오픈 소스 자동회귀 언어 모델이며, 규모 확장, AI 안전성 및 해석 가능성 연구를 위한 가중치, 학습/평가 코드, 및 부분적으로 학습된 체크포인트와 함께 공개되었다.
We introduce GPT-NeoX-20B, a 20 billion parameter autoregressive language model trained on the Pile, whose weights will be made freely and openly available to the public through a permissive license. It is, to the best of our knowledge, the largest dense autoregressive model that has publicly available weights at the time of submission. In this work, we describe \model{}'s architecture and training and evaluate its performance on a range of language-understanding, mathematics, and knowledge-based tasks. We find that GPT-NeoX-20B is a particularly powerful few-shot reasoner and gains far more in performance when evaluated five-shot than similarly sized GPT-3 and FairSeq models. We open-source the training and evaluation code, as well as the model weights, at https://github.com/EleutherAI/gpt-neox.
연구 동기 및 목표
- 20B 매개변수 규모의 대규모 오픈 소스 자동회귀 언어 모델의 아키텍처와 학습을 시연한다.
- 언어 이해, 지식 기반 및 수학적 과제에 걸쳐 GPT-NeoX-20B를 평가한다.
- 연구를 촉진하기 위해 모델 가중치, 체크포인트 및 평가 도구의 공개 접근을 제공한다.
제안 방법
- 효율성을 위해 로터리 포지셔널 임베딩 및 병렬 Attention/FF 계층과 같은 편차를 가진 GPT-3 유사 디코더 아키텍처를 채택한다.
- 메모리 관리를 위해 텐서/파이프라인 병렬성과 ZeRO 옵티마이저를 사용한 분산 학습으로 Pile 데이터셋에서 학습한다.
- Pile에 맞춰 설계되고 공백 구분 토큰화를 수정한 50,257 개의 어휘 토큰을 가진 BPE 기반 토크나이저를 사용한다.
- 깊은 네트워크의 안정화를 목표로 한 스킴으로 가중치를 초기화하고 밀집(Dense) 계층만 사용한다.
- GPT-3, FairSeq, 및 GPT-J-6B 기준선에 대해 EleutherAI Language Model Evaluation Harness로 평가한다.
실험 결과
연구 질문
- RQ1비교 가능한 공개 모델에 비해 GPT-NeoX-20B가 자연어 이해, 지식 기반 및 수학적 과제에서 어떤 성과를 보이는가?
- RQ2GPT-J-6B 및 FairSeq 모델과 비교했을 때 few-shot 프롬프트가 GPT-NeoX-20B에 미치는 영향은 무엇인가?
- RQ3아키텍처 및 데이터 선택(토크나이저, 로터리 임베딩, 병렬 계층)이 모델 성능과 학습 효율성에 미치는 효과는 무엇인가?
- RQ4오픈하게 공개된 20B 매개변수 모델이 AI 안전성, 규모 확장, 해석 가능성 연구에 의미 있는 통찰을 제공할 수 있는가?
주요 결과
- GPT-NeoX-20B는 특정 작업에서 일부 FairSeq 모델보다 우수하고 다른 작업에서는 미흡하며, 제로샷/파이샷 설정에서 32회 평가 중 22승 4패 6근소한 차이로 나타난다.
- 모델은 특히 강력한 few-shot 학습 이점을 보이며 다섯 샷 프롬프트에서 비교적 대형의 GPT-3 및 FairSeq 모델보다 더 큰 향상을 보인다.
- GPT-NeoX-20B는 효과적인 few-shot 학습자이며 다섯 샷 프롬프트에서 GPT-J-6B 및 FairSeq 모델보다 더 큰 이득를 보인다.
- 저자는 광범위한 연구 접근성과 재현성을 가능하게 하기 위해 모델 가중치, 학습/평가 코드 및 부분적으로 학습된 체크포인트를 공개한다.
- 일부 설계 선택(로터리 임베딩, 병렬 Attention/FF 계층, 토크나이저)은 GPT-NeoX-20B를 GPT-3와 차별화하고 성능 및 학습 효율성에 영향을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.