Skip to main content
QUICK REVIEW

[논문 리뷰] Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution

Chrisantha Fernando, Dylan Banarse|arXiv (Cornell University)|2023. 09. 28.
Topic Modeling인용 수 27
한 줄 요약

Promptbreeder는 LLM에 의해 구동되는 자기참조 진화 루프를 사용하여 도메인 특화 프롬프트와 그 변이 전략을 자동으로 진화시키고, 매개변수 업데이트 없이 산술, 상식 및 혐오발언 작업에서 여러 최첨단 프롬팅 방법들을 능가한다.

ABSTRACT

Popular prompt strategies like Chain-of-Thought Prompting can dramatically improve the reasoning abilities of Large Language Models (LLMs) in various domains. However, such hand-crafted prompt-strategies are often sub-optimal. In this paper, we present Promptbreeder, a general-purpose self-referential self-improvement mechanism that evolves and adapts prompts for a given domain. Driven by an LLM, Promptbreeder mutates a population of task-prompts, and subsequently evaluates them for fitness on a training set. Crucially, the mutation of these task-prompts is governed by mutation-prompts that the LLM generates and improves throughout evolution in a self-referential way. That is, Promptbreeder is not just improving task-prompts, but it is also improving the mutationprompts that improve these task-prompts. Promptbreeder outperforms state-of-the-art prompt strategies such as Chain-of-Thought and Plan-and-Solve Prompting on commonly used arithmetic and commonsense reasoning benchmarks. Furthermore, Promptbreeder is able to evolve intricate task-prompts for the challenging problem of hate speech classification.

연구 동기 및 목표

  • 모델 매개변수를 수정하지 않고 자동적이며 도메인 적응형 프롬프트 엔지니어링을 촉진하고 가능하게 한다.
  • 프롬프트와 그 변이 전략이 함께 진화하는 자기참조 진화 메커니즘을 제안한다.
  • 프롬프트의 진화가 산술, 상식 추론, 혐오발언 작업에서 우수한 성능을 낳는다는 것을 보인다.
  • 성능 향상에 대한 자기참조 구성 요소의 기여를 조사한다.

제안 방법

  • 각 진화 유닛 하나 이상의 태스크-프롬프트와 연결된 변이-프롬프트를 갖는 진화 인구를 유지한다.
  • 변이 연산자로 LLM을 사용: P' = LLM(M + P) 여기서 M은 변이-프롬프트이고 P는 태스크-프롬프트이다.
  • 다수 세대에 걸쳐 이진 토너먼트 유전 알고리즘을 통해 태스크-프롬프트와 변이-프롬프트를 모두 진화시킨다.
  • 다양성과 자기개선을 촉진하기 위해 0차 및 1차 프롬프트, 분포 추정, 계통 기반, 초변이, 라마르크 변이, 교차/맥락 셔플링에 걸친 아홉 가지 변이 연산자를 사용한다.
  • 문제 설명과 변이-프롬프트 및 사고-스타일을 연결하여 다양한 시드 프롬프트를 생성함으로써 프롬프트를 초기화한다.
  • 도메인 학습 세트에서 100개의 Q&A 쌍을 샘플링하고 프롬프트 주도 성능을 측정하여 적합도를 평가한다.
Figure 1: Overview of Promptbreeder. Given a problem description and an initial set of general “thinking-styles” and mutation-prompts, Promptbreeder generates a population of units of evolution, each unit consisting of typically two task-prompts and a mutation-prompt. We then run a standard binary t
Figure 1: Overview of Promptbreeder. Given a problem description and an initial set of general “thinking-styles” and mutation-prompts, Promptbreeder generates a population of units of evolution, each unit consisting of typically two task-prompts and a mutation-prompt. We then run a standard binary t

실험 결과

연구 질문

  • RQ1자기참조 프롬프트 진화가 산술, 상식, 윤리 벤치마크 전반에서 LLM 추론을 개선할 수 있는가?
  • RQ2변이-프롬프트와 태스크-프롬프트를 함께 진화시킬 때 태스크-프롬프트만 진화시킬 때보다 더 도메인에 적응한 전략을 얻을 수 있는가?
  • RQ3다양한 변이 연산자와 하이퍼뮤테이션이 프롬프트 품질 및 성능에 미치는 영향은 무엇인가?
  • RQ4매개변수 업데이트 없이 더 큰 LLM으로 확장 가능한가?

주요 결과

  • PB는 Chain-of-Thought 및 Plan-and-Solve와 같은 최신 프롬프트 전략을 다수 벤치마크에서 능가한다.
  • PB는 제로샷과 파샷에서 강한 성과를 거두며, 기저 LLM으로 PaLM 2-L를 사용할 때 개선도 포함한다.
  • PB는 예를 들어 단계와 표기법을 상세히 기술하는 GSM8K 스타일의 프롬프트와 같이 정교한 도메인 특화 프롬프트를 진화시킨다.
  • 제거 분석은 자기참조 연산자가 수학 데이터셋 및 ETHOS 혐오발언 분류에서 긍정적으로 기여함을 보인다.
  • 9개의 모든 변이 클래스가 성능에 기여하며, 하이퍼-변이가 자기참조 개선을 가능하게 한다.
  • PB는 혐오발언 분류에서 해결책 인지형 프롬프트의 진화를 보여주며, 수작업으로 설계된 프례 prompts를 능가한다.
Figure 3: A typical evolutionary run in which a prompt strategy consisting of two sequentially applied prompts is evolved to solve the word in context task from the APE 24 instruction induction task. See the progression in the prompts evolved through the run. The elite prompts are shown as they appe
Figure 3: A typical evolutionary run in which a prompt strategy consisting of two sequentially applied prompts is evolved to solve the word in context task from the APE 24 instruction induction task. See the progression in the prompts evolved through the run. The elite prompts are shown as they appe

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.