Skip to main content
QUICK REVIEW

[논문 리뷰] Larger language models do in-context learning differently

Jerry Wei, Jason Lee|arXiv (Cornell University)|2023. 03. 07.
Topic Modeling인용 수 99
한 줄 요약

본 논문은 컨텍스트 학습이 작은 모델에서는 의미적 선행에 의존하는 반면, 더 큰 모델에서는 입력–레이블 매핑을 학습하는 능력으로 나타난다는 것을 보여주며, 의미적으로 관련이 없는 레이블과 뒤집힌 예제를 포함하고, 지시 튜닝이 이러한 능력을 더 형성한다.

ABSTRACT

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.

연구 동기 및 목표

  • 사전 학습에서의 의미적 선행이 모델 크기에 따라 컨텍스트 학습(ICL)에 어떻게 영향을 주는지 조사한다.
  • 사이즈가 큰 모델이 컨텍스트 내 입력–레이블 매핑을 통해 의미적 선행을 무력화할 수 있는지 조사한다.
  • 레이블이 입력과 의미적으로 관련이 없는 경우(SUL-ICL)에서의 ICL을 연구하여 입력–레이블 매핑 학습을 테스트한다.
  • ICL, 선행 및 입력–레이블 매핑 학습에 대한 지시 튜닝의 영향을 평가한다.
  • SUL-ICL 하에서 고차원 과제에서의 출현하는 능력을 평가한다.

제안 방법

  • 여러 모델 계열과 크기에 걸쳐 일반 ICL, 레이블을 뒤집은 ICL, 의미적으로 관련이 없는 레이블 ICL(SUL-ICL)을 비교한다.
  • 맥락 내 예시들(k=16 per class 기본값)을 사용하고, 보유되지 않은 레이블이 있는 다양한 NLP 태스크에서 평가한다.
  • 대형 모델이 의미적 선행을 무력화하는지 테스트하기 위해 맥락 내 레이블을 체계적으로 뒤집는다.
  • 자연어 목표를 의미적으로 관련이 없는 토큰(Foo/Bar)으로 대체하여 입력–레이블 매핑 학습을 강제한다.
  • ICL, 선행 및 매핑에 대한 지시 튜닝(Flan-PaLM)과 사전 학습 모델 간의 영향을 평가한다.
  • 언어 이외의 ICL 가능성을 탐색하기 위한 고차원 선형 분류 과제를 포함한다.

실험 결과

연구 질문

  • RQ1뒤집힌 예시에서 작은 언어 모델이 맥락 내 입력–레이블 매핑으로 의미적 선행을 무력화할 수 있는가?
  • RQ2레이블이 과제와 의미적으로 관련이 없어도(SUL-ICL) 대형 언어 모델이 맥락 내 입력–레이블 매핑을 학습하는 능력을 얻는가?
  • RQ3ICL에서 의미적 선행에 의존하는 정도와 입력–레이블 매핑 학습 사이의 의존성에 지시 튜닝이 어떻게 영향을 미치는가?
  • RQ4SUL-ICL하에서 모델 규모 확대로 고차원 선형 분류를 수행하는 능력이 출현하는가?

주요 결과

  • 대형 모델은 뒤집힌 맥락 내 레이블이 제시되면 의미적 선행을 무력화할 수 있지만, 소형 모델은 대체로 그렇지 못하다.
  • SUL-ICL 하에서 스케일이 커질수록 모델 성능이 향상되어 의미적 선행 없이 입력–레이블 매핑을 학습하는 출현하는 능력을 시사한다.
  • 지시 튜닝된 모델은 입력–레이블 매핑을 더 잘 학습하지만 의미적 선행도 강화시켜 뒤집힌 레이블로 선행을 무력화하는 능력을 감소시킨다.
  • SUL-ICL 설정에서 추가 예시로 인한 성능 향상은 대형 모델에서 더 크며, 대형 모델이 맥락 매핑을 더 잘 활용한다는 것을 시사한다.
  • 일부 태스크는 대형 모델 규모에서만 SUL-ICL 능력이 나타남을 보이며(예: 특정 RTE 및 ETHOS 태스크).
  • 대형 모델은 SUL-ICL하에서 고차원 설정에서도 선형 분류를 수행할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.