Skip to main content
QUICK REVIEW

[논문 리뷰] Emergent Abilities of Large Language Models

Jason Lee, Yi Tay|arXiv (Cornell University)|2022. 06. 15.
Topic Modeling인용 수 1,022
한 줄 요약

이 논문은 대형 언어 모델에서의 emergent abilities를 정의하고 조사하며, 특정 작업은 대규모에서만 달성 가능하고 작은 모델로는 예측할 수 없다는 것을 보여준다. 이는 few-shot prompting과 augmented prompting에서 emergent tasks를 분류하고, 가능한 설명, 위험, 그리고 향후 방향을 논의한다.

ABSTRACT

Scaling up language models has been shown to predictably improve performance and sample efficiency on a wide range of downstream tasks. This paper instead discusses an unpredictable phenomenon that we refer to as emergent abilities of large language models. We consider an ability to be emergent if it is not present in smaller models but is present in larger models. Thus, emergent abilities cannot be predicted simply by extrapolating the performance of smaller models. The existence of such emergence implies that additional scaling could further expand the range of capabilities of language models.

연구 동기 및 목표

  • 사전 학습된 Transformer 언어 모델의 맥락에서 emergent abilities를 정의한다.
  • few-shot prompting 및 augmented prompting 방법에서 관찰된 emergent tasks를 조사한다.
  • LLM의 규모 확장과 emergent에 관련된 요인, 위험 및 향후 방향을 논의한다.

제안 방법

  • emergent를 더 작은 모델에서는 존재하지 않다가 더 큰 모델에서 나타나는 능력으로 정의한다.
  • 축척 축을 학습 FLOPs 또는 매개변수 수로 설정하여 규모-축으로 플롯하고 위상전이와 같은 거동을 식별한다.
  • 이전 연구(BIG-Bench, MMLU, TruthfulQA 등)에서 emergent abilities를 수집하고 요약한다.
  • 프롬프팅 패러다임별로 emergent abilities를 분류한다(few-shot, instruction tuning, scratchpad 등).
  • emergent abilities의 '언제 Emergent인가'를 나타내는 표를 제공한다(훈련 FLOPs 및 매개변수 기준).
  • Emergence의 가능한 설명과 규모 확장 외의 대안(데이터 품질, 아키텍처, 목적 함수)을 논의한다.

실험 결과

연구 질문

  • RQ1대형 언어 모델에서 emergent abilities란 무엇인가?
  • RQ2어떤 작업이 모델의 규모가 커지며 emergent가 되고, 어떤 규모에서 나타나는가?
  • RQ3augmented prompting과 instruction-tuning이 emergent 혜택을 크게 나타내는가, 아니면 큰 규모에서만 나타나는가?
  • RQ4단순한 규모 확장을 넘어 emergent abilities를 설명할 수 있는 메커니즘은 무엇인가?

주요 결과

  • Emergent abilities는 충분히 큰 모델 규모에서만 나타나며 작은 모델로부터의 추정으로는 예측할 수 없다.
  • 여러 모델 계열에 걸친 few-shot prompting 작업의 8가지 예시가 등장한다(BIG-Bench 작업들).
  • Augmented prompting 전략(예: 체인-오브-사유, instruction tuning)은 큰 규모에서 emergent를 보이며, 때로는 수십에서 수천억 매개변수 혹은 동등한 FLOPs가 필요하다.
  • 일부 작업(WiC 등)은 매우 큰 규모 또는 특정 아키텍처(PaLM vs GPT-3/Chinchilla)에서만 emergent를 보인다.
  • Emergence는 규모뿐만이 아니라 데이터 품질, 아키텍처, 학습 목표도 얼마나 언제 어떻게 능력이 나타나는지에 영향을 준다.
  • emergent 위험은 규모 확장과 함께 나타나며(편향, 독성, 기억화) 거버넌스 및 완화 전략이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.