[논문 리뷰] Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting
본 논문은 프롬프트 형식 변경이 LLM 성능에 어떻게 급격한 영향을 미치는지 분석하고, 모델 가중치를 사용하지 않고도 이 민감도를 효율적으로 정량화하는 FormatSpread를 제안한다.
As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.
연구 동기 및 목표
- LLMs가 의미적으로 동등하더라도 프롬프트 형식에 매우 민감하다는 것을 보여준다.
- 다양한 작업에서 의미적으로 동등한 프롬프트 형식 간의 성능 분산을 정량화한다.
- 가용 예산에 맞춘 방법으로 형식을 샘플링하고 가중치에 접근하지 않고 분산을 추정한다.
- 어떤 프롬프트 특징이 성능 변동에 기여하는지와 형식이 내부 표현과 어떻게 관계하는지 특징화한다.
제안 방법
- 의미적 동등성을 정의하기 위해 그럴듯한 프롬프트 형식에 대한 형식적 문법을 개발한다.
- 원래 형식과 동등한 형식 간의 메트릭 m의 범위로 성능 분산을 정의한다.
- 다양한 형식 탐색을 다중 팔벌린트로 모델링하고 베이지안 최적화를 적용한다.
- 제한된 평가로 분산을 추정하는 예산 의식 알고리즘인 FormatSpread를 도입하여 Thompson 샘플링 또는 UCB를 사용한다.
- LLaMA-2 변종, Falcon, GPT-3.5를 포함한 여러 모델에서 Super-NaturalInstructions의 53개 작업에 대해 주된 지표로 순위 정확도를 사용하여 평가한다.
- 임베딩과 주성분을 통해 형식의 특징 기여도 및 식별 가능성을 분석한다.
실험 결과
연구 질문
- RQ1작업과 모델 간에 의미적으로 동등한 프롬프트 형식에서 얼마나 성능 변이가 발생하는가?
- RQ2모델 크기 증가, 더 많은 few-shot 예시 추가, 또는 지시 학습이 형식 민감도를 감소시키는가?
- RQ3모델 가중치에 접근하지 않고 제한된 평가로 성능 분산을 효율적으로 추정할 수 있는가?
- RQ4관찰된 형식으로 인한 성능 분산과 상관관계 있는 내부 프롬프트 임베딩 속성은 무엇인가?
- RQ5형식 간 차이가 모델 간에 동일하게 영향력이 있는가, 교차 모델 상관관계가 약함을 시사하는가?
주요 결과
- 동의어 형식에 대해 프롬프트 형식 지정은 일부 작업에서 동등한 형식 간에 최대 76 정확도 포인트 차이를 만들어낼 수 있다.
- 53개 작업에서 중앙값 분산은 7.5 정확도 포인트이며, 일부 작업은 70포인트 이상으로 분산을 보인다.
- FormatSpread는 약 51k 평가의 예산으로 실제 분산을 약 1 포인트 이내로 추정할 수 있으며, 순수 샘플링보다 우수하다.
- 형식 임베딩 분리 가능성이 성능 분산과 상관관계가 있으며, 형식 임베딩에서 형식을 높은 정확도로 식별하는 분류기가 있다.
- 형식화 효과는 few-shot 예시 증가, 모델 크기 증가, 또는 지시 학습에도 불구하고 지속된다.
- 형식 성능은 모델 간에 강하게 상관되지 않는 경우가 많아 교차 모델 비교를 어렵게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.