QUICK REVIEW

[논문 리뷰] Does Prompt Formatting Have Any Impact on LLM Performance?

Jia He, Mukund Rungta|arXiv (Cornell University)|2024. 11. 15.

Digital Rights Management and Security인용 수 19

한 줄 요약

이 논문은 프롬프트 포맷이 GPT 기반 모델의 성능에 태스크 전반에 걸쳐 상당히 영향을 미치며 보편적으로 최적 포맷은 없고, GPT-4 같은 더 큰 모델이 GPT-3.5보다 포맷 변화에 더 강인하다는 것을 보여준다.

ABSTRACT

In the realm of Large Language Models (LLMs), prompt optimization is crucial for model performance. Although previous research has explored aspects like rephrasing prompt contexts, using various prompting techniques (like in-context learning and chain-of-thought), and ordering few-shot examples, our understanding of LLM sensitivity to prompt templates remains limited. Therefore, this paper examines the impact of different prompt templates on LLM performance. We formatted the same contexts into various human-readable templates, including plain text, Markdown, JSON, and YAML, and evaluated their impact across tasks like natural language reasoning, code generation, and translation using OpenAI's GPT models. Experiments show that GPT-3.5-turbo's performance varies by up to 40\% in a code translation task depending on the prompt template, while larger models like GPT-4 are more robust to these variations. Our analysis highlights the need to reconsider the use of fixed prompt templates, as different formats can significantly affect model performance.

연구 동기 및 목표

다양한 인간 읽기 프롬프트 템플릿(일반 텍스트, 마크다운, YAML, JSON)이 GPT 모델의 성능에 영향을 미치는지 조사한다.
표준화된 벤치마크를 사용하여 프롬프트 포맷 변화에 대한 GPT-3.5와 GPT-4의 민감도를 평가한다.
프롬프트가 달라질 때 모델 출력의 일관성을 평가한다.
다양한 GPT 모델과 패밀리 간에 최상 포맷의 전이 가능성을 탐구한다.

제안 방법

동일한 작업 맥락을 네 가지 프롬프트 템플릿(일반 텍스트, 마크다운, YAML, JSON)으로 형식화한다.
Azure OpenAI를 통해 GPT-3.5-turbo-0613, GPT-3.5-turbo-16k-0613, GPT-4-1106-preview, GPT-4-32k-0613를 평가한다.
NL2NL, NL2Code, Code2Code 벤치마크(MMLU, NER Finance, HumanEval, FIND, CODEXGLUE, HumanEval-X)를 사용한다.
최대/최소 성능을 통해 템플릿 간 민감도를 계산하고 단측 대응쌍 t-검정(p값을 보고한다).
Shu et al. (2023)의 일관성 지표(C)를 사용하여 프롬프트 간 일관성을 측정한다.
최상 포맷 템플릿의 교차-교차(IoU) 방법으로 모델 간 전이 가능성을 평가한다.

Figure 1: An example to demonstrate how prompt formatting impacts GPT-35-turbo-16k-0613 model’s performance based on our experiments on multiple choice questions related to international law from the MMLU benchmark ( Hendrycks et al. ( 2020 ) ). Texts inside " $<>$ " are replaced by actual contexts.

실험 결과

연구 질문

RQ1프롬프트 형식이 태스크 전반에서 GPT 모델의 성능에 얼마나 영향을 미치는가?
RQ2다양한 형식으로 프롬프트될 때 GPT 모델이 일관된 출력을 생성할 수 있는가?
RQ3GPT 모델들 간에 보편적으로 최적의 프롬프트 형식이 존재하는가, 아니면 형식 효과가 모델별로 매우 특이한가?
RQ4모델 크기(GPT-3.5 vs GPT-4)가 프롬프트 형식에 대한 민감도와 일관성에 어떤 영향을 미치는가?
RQ5상위 형식 템플릿이 모델 또는 모델 패밀리 간에 어느 정도 전이되는가?

주요 결과

프롬프트 형식 민감도는 모델과 태스크에서 통계적으로 유의미하다(p값이 대부분 < 0.01).
GPT-3.5-turbo 변형은 형식에 따라 성능 차이가 크게 나타나며, 예를 들어 FIND에서 마크다운에서 일반 텍스트로 변경할 때 최대 200%의 개선이 발생하는 등 MMLU와 HumanEval에서도 유사한 큰 변동이 나타난다.
GPT-4 모델은 프롬프트 형식 변경에 대해 GPT-3.5보다 더 높은 강건성을 보이며 형식 간 일관성도 더 높은 편이며(MMLU에서 일관성 점수 종종 > 0.5).
하나의 보편적으로 우수한 프롬프트 형식은 존재하지 않으며 형식 선호도는 모델에 따라 다르다(예: GPT-3.5-turbo는 JSON을 선호하고 GPT-4는 Markdown을 선호).
최상 형식 템플릿은 서로 다른 GPT 모델 패밀리 간에 높은 전이가 잘 되지 않는다(IoU가 패밀리 간에 종종 0.2 미만이지만 동일한 모델 변형 내에서는 더 높다).
더 큰 모델(GPT-4)은 다양한 프롬프트에서 더 일관된 출력을 생성하는 경향이 있으며, 작은 모델(GPT-3.5)보다 일관성이 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.