[논문 리뷰] Boosted Prompt Ensembles for Large Language Models
논문은 문제 공간의 어려운 영역을 커버하기 위해 몇-shot 프롬프트의 세트를 구축하는 단계적 앙상블 방법인 Boosted Prompting을 소개하며, 학습-시변(train-time) 및 테스트-시변(test-time) 변형을 사용해 단일 프롬프트 및 배깅 앙상블을 여러 추론 벤치마크에서 능가합니다.
Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.
연구 동기 및 목표
- 추가 학습 없이 파샬핑 프롬프트 성능을 향상시키려는 동기를 제시한다.
- 단계별이고 부스팅에서 영감을 받은 방법으로 다양한 프롬프트 앙상블을 구성하는 방법을 개발한다.
- 여러 추론 벤치마크에서 학습 시(boosting)과 테스트 시(boosting)를 평가한다.
- 초기 프롬프트, 앙상블 크기 및 주석 수준에 대한 민감도를 분석한다.
- 실무에서 Boosted Prompting이 언제 어떻게 도움이 되는지에 대한 실증적 지침을 제공한다.
제안 방법
- Boosted prompting 제안: 현재 앙상블이 불확실한 '어려운' 문제를 선택하여 프롬프트 앙상블에 반복적으로 추가한다.
- 정보가 풍부한 어려운 예제를 식별하고 새 프롬프트를 생성하기 위해 작은 라벨링 데이터셋(학습 시) 또는 모델 예측(테스트 시)을 사용한다.
- 정답으로 이어진 추론 경로를 선택하여 프롬프트를 구성하고 더 복잡한 추론 단계를 강조한다.
- 프롬프트당 다수의 연쇄사고(thought) 생성 결과를 다수결로 결합한다(실험에서 100개의 샘플).
- 두 가지 변형: 실제 정답 레이블을 사용하는 학습 시 부스팅과 합의 기반의 정답 판단 기준을 사용하는 테스트 시 부스팅.
실험 결과
연구 질문
- RQ1도전적인 추론 과제에서 boosted prompting이 단일 프롬프트 및 배깅된 프롬프트 앙상블보다 우수한가?
- RQ2주석 수준, 초기 프롬프트 품질 및 앙상블 구성(n 프롬프트, 프롬프트당 경로 수 m)에 따라 성능이 어떻게 달라지는가?
- RQ3테스트 시 부스팅이 분포 변화에 적응하고 온라인 프롬프트 공간 탐색으로 기능할 수 있는가?
- RQ4더 복잡한 사고의 연쇄를 사용하고 앙상블 구성원을 가중하는 것이 어떤 영향을 미치는가?
- RQ5기본 LLM 모델의 선택이 boosted prompting의 상대적 이득에 어떤 영향을 미치는가?
주요 결과
- Boosted prompting은 AQUA, GSM8K, MMLU570, CMATH420, SVAMP에서 소량의 학습 데이터로도 self-consistency 베이스라인을 일관되게 상회한다.
- 학습 시 부스팅이 일반적으로 테스트 시 부스팅보다 우수하며, 특히 정답 라벨이 있을 때 그렇지만 분포 변화 하에선 테스트 시 부스팅이 잠재력을 보인다.
- 앙상블 크기 증가나 프롬프트당 샘플 수를 늘려도 고정된 계산 예산 내에서 미미한 이득만 얻는다.
- 후보 경로에 더 복잡한 사고의 흐름을 사용하면 무작위 선택보다 성능이 향상된다.
- 더 높은 ‘충분한 합의’ 임계값은 너무 높게 설정될 경우 프롬프트 품질을 저하시켜 합의와 프롬프트 정보성 간의 균형이 필요함을 시사한다.
- 강력한 기본 모델(Davinci, GPT-3.5 등)을 사용하는 Boosted prompting은 이득을 주는 반면, 약한 모델(Curie)에서는 이익이 제한적일 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.