[논문 리뷰] Language Models are Few-Shot Learners
GPT-3, a 175B 파라미터의 자기회귀 모델은 경사 업데이트 없이도 다양한 NLP 태스크에서 강한 in-context(소수 샷) 학습을 보이며, 모델 크기 및 시연으로 성능이 확장된다.
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions - something which current NLP systems still largely struggle to do. Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.
연구 동기 및 목표
- few-shot, one-shot, zero-shot 설정을 탐색하여 작업별 특화 미세 조정을 제거하는 것을 동기 부여한다.
- 모델 크기와 컨텍스트를 증가시키는 것이 다양한 NLP 태스크에서 in-context 학습을 어떻게 보여주는지 평가한다.
- 대규모 언어 모델의 한계, 데이터 오염 위험, 사회적 영향 등을 평가한다.
제안 방법
- 125M에서 175B 매개변수에 이르는 여덟 가지 GPT-3 모델 크기를, 조밀(attention)과 희소(attention) 패턴이 교대로 구성된 트랜스포머를 사용하여 학습한다.
- 선정 및 필터링된 데이터 세트의 혼합(Common Crawl, WebText, Books, Wikipedia)으로 총 300B 토큰의 사전 학습을 수행한다.
- 자연어 프롬프트와 시연을 2048 토큰 컨텍스트 윈도우 내에서 조건부로 사용하여 zero-shot, one-shot 및 few-shot 설정에서 평가한다.
- 작업에 적합한 평가 지표(F1, BLEU, exact match)와 자유 형식 완성을 위한 빔 탐색을 사용한다.
- 데이터 오염을 조사하고 테스트 세트와의 잠재적 중복을 보고하며, 중복이 결과를 과대 부풀릴 수 있는 지점을 지적한다.
- 가능한 경우 최고 수준의 미세 조정된 모델과의 성능을 비교한다.
실험 결과
연구 질문
- RQ1GPT-3는 zero-shot, one-shot, few-shot 조건에서 광범위한 NLP 태스크에서 어떻게 성능을 보이는가?
- RQ2모델 크기를 키우는 것이 태스크 전반에 걸쳐 in-context 학습 효율성과 few-shot 성능을 향상시키는가?
- RQ3대규모 in-context 학습의 한계와 실패 모드는 무엇인가?
- RQ4데이터 오염이 벤치마크 태스크에서 보고된 결과에 어느 정도 영향을 미치는가?
주요 결과
- GPT-3는 많은 NLP 데이터 세트에서 강력한 few-shot 성능을 보여주며, 때로는 미세 조정된 최첨단 모델과 경쟁하거나 능가한다.
- Zero-shot 성능은 모델 크기에 따라 지속적으로 향상되고, few-shot 성능은 크기와 시연에 따라 더 빠르게 향상된다.
- few-shot 설정에서 GPT-3는 즉석에서의 추론이 필요한 작업을 수행할 수 있으며, 예를 들면 단어 재배열 해독이나 3자리 산술과 같은 작업, 그리고 인간 작문과 유사한 합성 뉴스 기사를 생성할 수 있다.
- 일부 작업은 few-shot 설정에서 여전히 도전적이며, 특정 NLI 및 독해 벤치마크를 포함한다.
- 데이터 오염은 대부분의 데이터셋에 미치는 영향이 미미하지만 일부 벤치마크에서 결과를 과대 부풀릴 수 있어 저자들이 부분적으로 결과를 보고한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.