[논문 리뷰] Scaling Language Models: Methods, Analysis & Insights from Training Gopher
이 논문은 MassiveText로 학습된 280B 매개변수의 Transformer 언어 모델(Gopher)을 분석하고, 152개의 작업에서 평가하며, 대규모 모델의 독성, 편향 및 안전성 영향에 대해 검토한다.
Language modelling provides a step towards intelligent communication systems by harnessing large repositories of written human knowledge to better predict and understand the world. In this paper, we present an analysis of Transformer-based language model performance across a wide range of model scales -- from models with tens of millions of parameters up to a 280 billion parameter model called Gopher. These models are evaluated on 152 diverse tasks, achieving state-of-the-art performance across the majority. Gains from scale are largest in areas such as reading comprehension, fact-checking, and the identification of toxic language, but logical and mathematical reasoning see less benefit. We provide a holistic analysis of the training dataset and model's behaviour, covering the intersection of model scale with bias and toxicity. Finally we discuss the application of language models to AI safety and the mitigation of downstream harms.
연구 동기 및 목표
- 다양한 작업에 걸친 성능에 미치는 규모의 영향을 탐구함으로써 대규모 언어 모델 구축의 동기를 제시한다.
- Gopher 및 그 계열을 학습시키는 데 사용된 데이터셋, 아키텍처, 학습 체계, 그리고 인프라를 설명한다.
- 읽기, 지식, 과학 영역에서 규모 확장으로 얻은 성능 향상을 특징화한다.
- 모델 크기가 커짐에 따라 독성, 편향, 안전성 고려사항을 조사하고, 다운스트림 피해에 대한 시사점을 포함한다.
제안 방법
- RMSNorm과 상대적 위치 인코딩을 사용하는 Transformer 기반 자기회귀 모델을 사용한다.
- 2048 컨텍스트 윈도우를 가진 300B 토큰에서 44M에서 280B 매개변수에 이르는 여섯 개 모델을 학습한다.
- 품질 필터링 및 중복 제거가 적용된 다원 소스 영어 데이터셋인 MassiveText에서 학습한다.
- 언어 모델링, 독해, 사실 확인, QA, 상식, MMLU, 그리고 BIG-bench에 걸친 152개 작업에서 평가한다.
- RealToxicityPrompts 프롬프트와 Perspective API를 통해 독성을 분석하고, 편향 및 방언 대표성을 평가한다.
실험 결과
연구 질문
- RQ1모델 규모(매개변수 수와 연산량)가 광범위한 NLP 작업에서 성능에 어떤 영향을 미치는가?
- RQ2확장이 가장 큰 이점을 주는 작업 카테고리는 무엇이며, 특히 수학 및 추론에서 규모 확장의 효과가 제한적인 영역은 어디인가?
- RQ3더 큰 규모가 독성 생성 및 독성 분류 능력에 미치는 영향은 무엇인가?
- RQ4Gopher와 같은 아주 큰 언어 모델 배포의 안전성 및 편향 함의는 무엇이며, 완화책은 어떻게 설계될 수 있는가?
주요 결과
- Gopher (280B)는 152개 벤치마크에 걸친 평가 작업 중 약 81%에서 이전의 SOTA 모델보다 더 나은 성능을 보인다.
- 규모 확장은 지식 집약적 작업(예: 읽기 이해, 사실 확인)과 일반 지식에서 상당한 향상을 가져오며, 수학/논리 추론에서는 개량이 상대적으로 작다.
- RACE 독해에서 Gopher는 고등학교 수준의 작업에서 인간 성능에 근접하고, 중학생 수준에서도 GPT-3를 능가한다.
- 대규모 모델은 독성 탐지를 개선하지만, 독성 프롬프트로 유도될 경우 더 독성적인 출력을 생성하여 미묘한 안전성 트레이드오프를 부각한다.
- 대다수 작업에서 더 큰 Gopher 모델의 성능은 작은 모델에 비해 향상되며, 의학, 과학, 기술, 사회과학, 인문학에서 두드러진 이점이 나타나고, 일부 추론 작업은 규모 확장에서 이점이 제한적이다.
- 최신 SOTA 기준선과 비교할 때, Gopher는 많은 벤치마크에서 SOTA에 근접하거나 이를 능가하는 경우가 많지만, 복잡한 도메인에서는 여전히 인간 전문가의 성능보다 낮다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.