QUICK REVIEW

[논문 리뷰] Boosted Prompt Ensembles for Large Language Models

Silviu Pitis, Michael R. Zhang|arXiv (Cornell University)|2023. 04. 12.

Topic Modeling인용 수 11

한 줄 요약

논문은 문제 공간의 어려운 영역을 커버하기 위해 몇-shot 프롬프트의 세트를 구축하는 단계적 앙상블 방법인 Boosted Prompting을 소개하며, 학습-시변(train-time) 및 테스트-시변(test-time) 변형을 사용해 단일 프롬프트 및 배깅 앙상블을 여러 추론 벤치마크에서 능가합니다.

ABSTRACT

Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.

연구 동기 및 목표

추가 학습 없이 파샬핑 프롬프트 성능을 향상시키려는 동기를 제시한다.
단계별이고 부스팅에서 영감을 받은 방법으로 다양한 프롬프트 앙상블을 구성하는 방법을 개발한다.
여러 추론 벤치마크에서 학습 시(boosting)과 테스트 시(boosting)를 평가한다.
초기 프롬프트, 앙상블 크기 및 주석 수준에 대한 민감도를 분석한다.
실무에서 Boosted Prompting이 언제 어떻게 도움이 되는지에 대한 실증적 지침을 제공한다.

제안 방법

Boosted prompting 제안: 현재 앙상블이 불확실한 '어려운' 문제를 선택하여 프롬프트 앙상블에 반복적으로 추가한다.
정보가 풍부한 어려운 예제를 식별하고 새 프롬프트를 생성하기 위해 작은 라벨링 데이터셋(학습 시) 또는 모델 예측(테스트 시)을 사용한다.
정답으로 이어진 추론 경로를 선택하여 프롬프트를 구성하고 더 복잡한 추론 단계를 강조한다.
프롬프트당 다수의 연쇄사고(thought) 생성 결과를 다수결로 결합한다(실험에서 100개의 샘플).
두 가지 변형: 실제 정답 레이블을 사용하는 학습 시 부스팅과 합의 기반의 정답 판단 기준을 사용하는 테스트 시 부스팅.

실험 결과

연구 질문

RQ1도전적인 추론 과제에서 boosted prompting이 단일 프롬프트 및 배깅된 프롬프트 앙상블보다 우수한가?
RQ2주석 수준, 초기 프롬프트 품질 및 앙상블 구성(n 프롬프트, 프롬프트당 경로 수 m)에 따라 성능이 어떻게 달라지는가?
RQ3테스트 시 부스팅이 분포 변화에 적응하고 온라인 프롬프트 공간 탐색으로 기능할 수 있는가?
RQ4더 복잡한 사고의 연쇄를 사용하고 앙상블 구성원을 가중하는 것이 어떤 영향을 미치는가?
RQ5기본 LLM 모델의 선택이 boosted prompting의 상대적 이득에 어떤 영향을 미치는가?

주요 결과

Boosted prompting은 AQUA, GSM8K, MMLU570, CMATH420, SVAMP에서 소량의 학습 데이터로도 self-consistency 베이스라인을 일관되게 상회한다.
학습 시 부스팅이 일반적으로 테스트 시 부스팅보다 우수하며, 특히 정답 라벨이 있을 때 그렇지만 분포 변화 하에선 테스트 시 부스팅이 잠재력을 보인다.
앙상블 크기 증가나 프롬프트당 샘플 수를 늘려도 고정된 계산 예산 내에서 미미한 이득만 얻는다.
후보 경로에 더 복잡한 사고의 흐름을 사용하면 무작위 선택보다 성능이 향상된다.
더 높은 ‘충분한 합의’ 임계값은 너무 높게 설정될 경우 프롬프트 품질을 저하시켜 합의와 프롬프트 정보성 간의 균형이 필요함을 시사한다.
강력한 기본 모델(Davinci, GPT-3.5 등)을 사용하는 Boosted prompting은 이득을 주는 반면, 약한 모델(Curie)에서는 이익이 제한적일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.