[논문 리뷰] Prompt Engineering a Prompt Engineer
PE2는 메타 프롬프트를 구성하여 LLM의 자동 프롬프트 엔지니어링을 안내하고, 이전 기준선보다 더 나은 프롬프트를 달성하며 제로샷 CoT를 수학 추론 벤치마크에서 능가합니다. 또한 반대사건(counterfactual) 작업 및 생산 프롬프트에서 강력한 성능과 해석 가능한 프롬프트 수정이 입증됩니다.
Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models on customized tasks. It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that large language models can be meta-prompted to perform automatic prompt engineering, we argue that their potential is limited due to insufficient guidance for complex reasoning in the meta-prompt. We fill this gap by infusing into the meta-prompt three key components: detailed descriptions, context specification, and a step-by-step reasoning template. The resulting method, named PE2, exhibits remarkable versatility across diverse language tasks. It finds prompts that outperform "let's think step by step" by 6.3% on MultiArith and 3.1% on GSM8K, and outperforms competitive baselines on counterfactual tasks by 6.9%. Further, we show that PE2 can make targeted and highly specific prompt edits, rectify erroneous prompts, and induce multi-step plans for complex tasks.
연구 동기 및 목표
- 구조화된 가이던스가 필요한 복잡한 추론 작업으로 자동 프롬프트 엔지니어링에 동기를 부여한다.
- 프롬프트 엔지니어링을 위한 단계별 추론과 맥락을 이끌어내는 구성요소를 가진 메타 프롬프트(PE2)를 개발한다.
- 프롬프트 제안을 안내하기 위해 배치 크기(batch size), 스텝 크기(step size), 모멘텀(momentum) 등 구두화된 최적화 개념을 메타 프롬프트에 포함한다.
- 다재다능성을 평가하기 위해 PE2를 수학적 추론 데이터셋, 카운터팩추얼(counterfactual) 작업, 그리고 생산 프롬프트에 대해 평가한다.
- PE2를 기초 자동 프롬프트 엔지니어링 방법 및 인간의 초기화에 비해 비교한다.
제안 방법
- 프롬프트 엔지니어링을 dev-set 성능을 극대화하는 프롬프트를 찾는 최적화 문제로 구성한다.
- 단계별 추론 템플릿, 맥락 명세, 그리고 두 단계의 작업 설명이라는 메타 프롬프트 구성요소를 도입한다.
- 최적화 알고리즘에서 차용한 개념(배치 크기, 스텝 크기, 모멘텀)을 메타 프롬프트에 반영하고 변형을 실험한다.
- 실패로부터 새로운 프롬프트를 생성하는 프롬프트 제안 모델을 사용하고 top-k 선택으로 백트래킹 탐색을 적용한다.
- 다수의 데이터셋과 설정에서 제안 모델로 GPT-4를, 태스크 모델로 text-davinci-003을 사용하여 평가한다.
- 각 메타 프롬프트 구성요소와 초기화 전략의 영향을 평가하기 위한 구간 분석(ablation)을 수행한다.
실험 결과
연구 질문
- RQ1프롬프트 엔지니어링에 맞춰진 메타 프롬프트가 기존 기준선에 비해 자동 프롬프트 생성을 개선할 수 있는가?
- RQ2메타 프롬프트의 어떤 구성요소가 제안된 프롬프트의 품질을 가장 효과적으로 향상시키는가?
- RQ3이전 자동 프롬프트 엔지니어링 방법에 비해 수학적 추론 벤치마크와 counterfactual 작업에서 PE2의 성능은 어떠한가?
- RQ4PE2가 생산 프롬프트 및 실제 길이가 긴 프롬프트에서도 견고한가?
- RQ5현 LLM 능력 하에서 PE2가 보이는 한계와 실패 모드는 무엇인가?
주요 결과
- PE2는 text-davinci-003를 태스크 모델로 사용할 때 MultiArith에서 제로샷 체인 오브 생각 프롬프트를 6.3포인트, GSM8K에서 3.1포인트 능가한다.
- PE2는 Iterative APE 및 APO 기준선보다 여러 설정과 작업에서 우수한 성능을 보인다.
- 세 가지 메타 프롬프트 구성요소(두 단계 작업 설명, 단계별 추론 템플릿, 맥락 명세)가 프롬프트 엔지니어링 품질을 크게 향상시키고 분산 변동을 감소시킨다.
- PE2는 대안적(counterfactual) 작업과 길이가 긴 생산 프롬프트의 최적화에서도 강한 성능을 보인다.
- PE2는 표적 프롬프트 수정을 생성하고 잘못되었거나 불완전한 프롬프트를 수정하며 때로는 새롭지만 부분적으로만 올바른 반사실적 규칙을 도출한다.
- 초기화 품질이 PE2의 성능에 강하게 영향을 미치며, 유도 기반 초기화가 경쟁력 있는 결과를 낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.