[논문 리뷰] The Unreasonable Effectiveness of Eccentric Automatic Prompts
논문은 “긍정적 사고” 시스템 메시지가 LLM에 미치는 영향을 정량화하고, 자동 프롬프트 최적화가 GSM8K 전반에 걸쳐 수동 프롬프트보다 일반적으로 우월하다는 것을 보여주며, 모델별 특이한 요인도 주목됩니다.
Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "positive thinking" into the system message of the prompt, then compare that to systematic prompt optimization. We assess the performance of 60 combinations of system message snippets, tested with and without Chain of Thought prompting, across three models with parameters ranging from 7 to 70 billion on the GSM8K dataset. Our findings reveal that results do not universally generalize across models. In most instances, the inclusion of "positive thinking" prompts positively affected model performance. Notably, however, Llama2-70B exhibited an exception when not utilizing Chain of Thought, as the optimal system message was found to be none at all. Given the combinatorial complexity, and thus computation time, of experimenting with hand-tuning prompts for large black-box models, we then compared the performance of the best "positive thinking" prompt against the output of systematic prompt optimization. We show that employing an automated prompt optimizer emerges as the most effective method for enhancing performance, even when working with smaller open-source models. Additionally, our findings reveal that the highest-scoring, automatically-optimized prompt exhibits a degree of peculiarity far beyond expectations.
연구 동기 및 목표
- 낙관적 시스템 메시지(“positive thinking”)를 추가하는 것이 다단계 수학 문제에 대한 LLM 성능에 어떤 영향을 미치는지 평가합니다.
- 성능과 일반화 측면에서 수동 프롬 prompting과 자동 프롬프트 최적화를 비교합니다.
- GSM8K에서 모델별로 프롬프트 전략의 효과가 달라지는지 평가합니다.
제안 방법
- Chain of Thought(CoT) 여부와 함께 5개의 오프너 × 3개의 과제 설명 × 4개의 클로저로 60개 시스템 메시지 프롬프트 조합을 테스트합니다.
- 3개의 모델(Mistral-7B, Llama2-13B, Llama2-70B)을 대상으로 GSM8K에서 Exact Match(EM) 채점으로 10–100개의 문제 하위 집합에서 평가합니다.
- 출력 형식을 형성하기 위해 네 가지 예시 프롬프트로 인-컨텍스트 학습을 사용합니다.
- identical question subsets에서 DSPy 자동 프롬프트 최적화와 수동 긍정적 사고 프롬프트를 비교합니다.
- 최적화와 평가 세트 간의 성능 차이를 통해 일반화를 분석합니다.
- 자동 최적화로 생성된 프롬프트가 특히 다른 프롬프트를 보인다는 점을 강조합니다.
실험 결과
연구 질문
- RQ1시스템 프롬프트에 “positive thinking” 조각을 추가하는 것이 모델 간 GSM8K 수학 문제 해결에 도움이 되나요?
- RQ2자동 프롬프트 최적화가 평균 성능과 일반화 측면에서 수동으로 조정된 “positive thinking” 프롬프트와 어떻게 비교되나요?
- RQ3CoT, 프롬프트 불변성 등의 프롬프트 전략의 효과에서 모델별 경향이 관찰되나요?
- RQ4조합 가능한 프롬프트 변화가 큰 경우 블랙박스 모델 프롬팅의 실용적 시사점은 무엇인가요?
주요 결과
- 자동 프롬프트 최적화는 일반적으로 모델과 문제 수에 관계없이 수동으로 조정된 “positive thinking” 프롬 prompts의 성능에 맞먹거나 능가합니다.
- 일부 예외가 있습니다: 10–25 문제에서 Mistral-7B가 수동 프롬프트를, 10 문제에서 Llama2-70B가 수동 프롬프트를 능가합니다.
- Llama2-13B 및 Llama2-70B의 경우 자동 최적화된 프롬프트가 크기 전반에 걸쳐 일반화 오차(delta)가 더 낮아 일반화가 더 좋음을 시사합니다.
- CoT 없이 프롬프트 편차는 낮고 “positive thinking”은 성능을 개선하지 않는 경우가 많으며, CoT가 있을 때는 프롬프트가 더 큰 이득과 더 큰 변동성을 보입니다.
- 가장 높은 점수를 받는 자동으로 생성된 프롬프트는 상당히 비전형적일 수 있으며(예: 스타 트렉 테마 접두사) 여전히 수작업 프롬프트를 능가합니다.
- 재현성 문제를 강조합니다: 발표자의 보고 점수는 동일 프롬프트에서 얻은 결과와 크게 다를 수 있으며, 재현을 위해 프롬프트를 공개해야 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.