[논문 리뷰] Exploring Length Generalization in Large Language Models
이 논문은 트랜스포머 기반 LLM이 더 긴 문제 인스턴스에 일반화하는 방법을 분석하고, 미세조정만으로는 어려우며, 맥락 내 scratchpad 프롬 prompting이 길이 일반화를 dramatically 향상시킨다는 것을 보여준다. 또한 실패 모드와 미세조정, 프롬팅, scratchpad 전략 간의 상호 작용 효과를 식별한다.
The ability to extrapolate from short problem instances to longer ones is an important form of out-of-distribution generalization in reasoning tasks, and is crucial when learning from datasets where longer problem instances are rare. These include theorem proving, solving quantitative mathematics problems, and reading/summarizing novels. In this paper, we run careful empirical studies exploring the length generalization capabilities of transformer-based language models. We first establish that naively finetuning transformers on length generalization tasks shows significant generalization deficiencies independent of model scale. We then show that combining pretrained large language models' in-context learning abilities with scratchpad prompting (asking the model to output solution steps before producing an answer) results in a dramatic improvement in length generalization. We run careful failure analyses on each of the learning modalities and identify common sources of mistakes that highlight opportunities in equipping language models with the ability to generalize to longer problems.
연구 동기 및 목표
- 패리티(parity) 및 변수 할당(task) 과제를 사용하여 트랜스포머 모델의 길이 일반화를 정의하고 특성화한다.
- 미세조정, 프롬프팅, 스크래치패드 방법이 분포 내(in-distribution)와 분포 외(out-of-distribution) 길이에서 어떻게 작동하는지 평가한다.
- 길이 일반화를 저해하는 실패 모드와 맥락 요인을 식별한다.
- 스 크래치패드 프롬프트나 미세조정으로 더 긴 문제 길이에 대한 외삽이 가능해지는지 조사한다.
제안 방법
- 결정적 마코프 과정의 맥락에서 길이를 정의하고 상태 추적이 필요한 두 과제(패리티와 불린 변수 할당)를 연구한다.
- 사전 학습된 디코더의 전체 미세조정, 맥락 내 소수-shot 프롬프트, 그리고 스크래치패드(사고의 체인) 추론 등 여러 학습 모달리티를 평가한다.
- 상호 작용과 실패 모드를 관찰하기 위해 (미세조정, 프롬프팅, 스크래치패드)의 조합을 테스트한다.
- 위치 인코딩, 주의 분산 요소(distractors), 시퀀스 종료 신호 등 에 초점을 맞춘 실패 분석을 수행한다.
- 사전 학습된 대형 언어 모델에서 템플릿 기반의 길이 일반화를 평가하기 위해 스크래치패드 프롬프트를 실험한다.
- 다른 입력 길이 분포가 분포 내 성능과 분포 외 성능에 어떤 영향을 미치는지 설명한다.
실험 결과
연구 질문
- RQ1미세조정을 통해 학습된 트랜스포머 모델이 학습 길이를 넘는 더 긴 문제 길이에 일반화할 수 있는가?
- RQ2스캐치패드 추론과 함께 맥락 내 학습이 단독 미세조정보다 길이 일반화를 개선하는가?
- RQ3길이 외삽을 저해하는 주요 실패 모드(예: 위치 바이어스, EOS 처리, 주의 산만 요소 등)는 무엇인가?
주요 결과
| 기법 | 분포 내 | 분포 외 | 확대에 따른 개선 | 비고 |
|---|---|---|---|---|
| Fine-tune | ✓✓ | ✗ | ✗ | |
| Prompting | ✗ | ✗ | ✗ | |
| Fine-tune + Prompting | ✓✓ | ✗ | ✗ | |
| Fine-tune + Scratchpad | ✓✓ | ✗ | ✗ | |
| Prompting + Scratchpad | ✓ | ✓ | ✓ | |
| Fine-tune + Prompting + Scratchpad | ✓✓ | ✓✓ ∗ | ✓✓ | ∗ Task-dependency |
- 길이 일반화 과제에서의 미세조정은 규모 확장에도 불구하고 분포 외 성능이 낮게 나타난다.
- 모델 크기와 데이터를 확장해도 미세조정하에서 길이 일반화가 의미 있게 향상되지 않는다.
- 스크래치패드 미세조정은 더 긴 문제로 일반화하는 데 실패를 보이고, 디스트랙터가 주요 원인으로 확인되었다.
- 맥락 내 학습과 스크래치패드 프롬프트는 길이 일반화를 극적으로 향상시켜 템플릿이 더 긴 길이로 외삽되도록 한다.
- 기본 모델이 이미 과제에서 잘 수행하는 경우(특히 패리티)에서 소수-shot 스크래치패드 프롬프트가 제로샷 스크래치패드 프롬프트보다 실질적으로 우수하게 성능을 보인다.
- 미세조정, 프례 프롬핑, 스크래치패드 전략의 조합 효과는 과제에 따라 다르며 혼합된 결과를 낳을 수 있다(패리티에서 강하고 변수 할당에서는 약하다).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.