[논문 리뷰] Are Emergent Abilities in Large Language Models just In-Context Learning?
본 논문은 18개 모델(60M–175B 매개변수)에서 22개 과제에 걸쳐 emergent abilities를 평가하고, in-context learning과 instruction tuning을 통제하며, emergent abilities가 실제로는 진정한 emergent reasoning이라기보다는 주로 in-context learning으로 설명된다는 것을 발견한다.
Large language models, comprising billions of parameters and pre-trained on extensive web-scale corpora, have been claimed to acquire certain capabilities without having been specifically trained on them. These capabilities, referred to as "emergent abilities," have been a driving force in discussions regarding the potentials and risks of language models. A key challenge in evaluating emergent abilities is that they are confounded by model competencies that arise through alternative prompting techniques, including in-context learning, which is the ability of models to complete a task based on a few examples. We present a novel theory that explains emergent abilities, taking into account their potential confounding factors, and rigorously substantiate this theory through over 1000 experiments. Our findings suggest that purported emergent abilities are not truly emergent, but result from a combination of in-context learning, model memory, and linguistic knowledge. Our work is a foundational step in explaining language model performance, providing a template for their efficient use and clarifying the paradox of their ability to excel in some instances while faltering in others. Thus, we demonstrate that their capabilities should not be overestimated.
연구 동기 및 목표
- in-context learning과 instruction tuning이 제거될 때 어떤 능력이 진정으로 emergent인지를 평가한다.
- 프롬프팅 기법의 효과와 emergent abilities를 구분한다.
- instruction tuning이 in-context learning을 유발하는지 아니면 진정한 추론 능력을 드러내는지 평가한다.
제안 방법
- in-context learning 효과를 제거하기 위해 비-instruction-tuned 모델을 제로샷 설정에서 평가한다.
- 다양한 축척에서 GPT, T5, Falcon, LLaMA 등 모델 패밀리를 instruction tuning 여부에 따라 비교한다.
- 이전 연구의 emergent 및 비-emergent 과제를 포함하는 선별된 과제 집합을 신중한 편향 제어와 함께 사용한다.
- 결과를 해석하기 위해 과제를 memorisable, formal, functional 범주로 수동 분류한다.
- in-context learning을 활용하여 추가 능력을 설명할 수 있는지(Occam’s Razor)를 고려하여 instruction tuning의 역할을 분석한다.

실험 결과
연구 질문
- RQ1in-context learning과 instruction tuning이 없는 상태에서 어떤 능력이 진정으로 emergent인가?
- RQ2instruction tuning이 관찰된 능력을 설명하기 위해 in-context learning을 유도하거나 의존하는가?
- RQ3관찰된 능력이 형식적 언어 기술, 암기 또는 기능적 추론에 기인하는가?
- RQ4더 간단한 설명인 (in-context learning)이 instruction-tuned 모델에서 관찰된 이익을 설명할 수 있는가?
주요 결과
- Emergent abilities는 주로 in-context learning에 기인한다는 점에서 내재적 등장이라기보다 현저히 차이가 있다.
- 프롬프팅 기법이 없는 상태에서 추론 능력이 등장했다는 증거는 없다.
- instruction tuning은 실제 emergent reasoning이라기보다 in-context capabilities의 효율적 사용을 통해 주로 작업 성능을 향상시킨다.
- 형식적 언어 능력과 암기는 이 분석에서 기능적 추론 능력과 구별된다.
- 본 연구는 재현을 위해 코드와 결과를 공개한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.