[논문 리뷰] When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models
본 연구는 3개의 오픈 소스 LLM에서 2457 MMLU 문제에 걸쳐 시스템 프롬프트의 162개 사회적 역할을 체계적으로 평가하고, 대인 관계 및 성 중립적 역할이 성능을 자주 향상시키는 반면 최적의 역할을 예측하는 것은 도전적임을 발견합니다.
Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses ``You are a helpful assistant'' as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model's performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.
연구 동기 및 목표
- 시스템 프롬프트에 사회적 역할을 추가하는 것이 여러 모델 및 작업에서 LLM 성능에 영향을 미치는지 평가한다.
- 어떤 범주와 특정 역할이 가장 큰 성능 향상을 가져오는지 식별한다.
- 역할 효과를 설명하는 요인(도메인, 성별, 유사성, 당혹도)을 조사한다.
- 프로모팅을 위한 효과적인 역할을 자동으로 선택하거나 예측하는 전략을 탐색한다.
제안 방법
- 6개의 대 interpersonal 관계 유형과 8개의 직업에 걸친 162개의 사회적 역할 세트를 구성한다.
- 2457 MMLU 질문에 대해 세 가지 오픈 소스 지시어-미세 조정 LLM(FLAN-T5-XXL, LLaMA-2-7b-chat, OPT-iml-max-1.3B)을 평가한다.
- 역할 이산화(discretization) 여부가 있는 것과 없는 것의 6개 프롬프트 템플릿(Role, Audience, Interpersonal 및 그 변형)을 설계하고 Robustness 체크로 Imagine의 패러프레이즈를 포함한다.
- 범주별 역할 효과, 도메인 내/도메인 외 매핑, 성별 역할에서 분석한다.
- 단어 빈도, 프롬프트-질문 유사도, 프롬프트 당혹도와 같은 가능한 기제에 대한 상관관계를 계산한다.
- 최고의 프롬프팅 역할을 찾기 위한 무작위, 최적 역할, 유사성 기반, 도메인 분류기, 롤 분류기, 자기 선택 등의 자동 역할 탐색 전략을 테스트한다.

실험 결과
연구 질문
- RQ1프롬프트에 사회적 역할을 추가하는 것이 다양한 모델과 질문에서 LLM 성능에 영향을 미치는가?
- RQ2어떤 유형이나 특정 역할이 더 높은 성능을 낳고, 이러한 효과가 모델 및 데이터 세트 간에 얼마나 일관적인가?
- RQ3도메인 정합성, 성별, 유사성, 당혹도 등의 기제가 성능에 미치는 영향을 설명하는가?
- RQ4자동 전략이 프례팅에 있어 최적의 역할을 효과적으로 식별할 수 있는가?
주요 결과
- 사회적 역할을 사용하는 프롬프팅은 대조 프롬프트에 비해 성능을 상당한 차이로 향상시킨다.
- 대인 관계 역할과 성 중립적 역할이 모델과 데이터 세트 전반에서 더 높은 성능을 나타내는 경향이 있다.
- 도메인 내외 역할 정렬에서 보편적 이점은 없으며, 효과는 데이터 세트와 질문에 따라 다르다.
- Audience 프롬프트(청중을 명시하는 것)가 일반적으로 역할 프롬프트 및 대인 관계 프롬프트를 능가한다.
- 역할 효과는 단어 빈도, 프롬프트-질문 유사도, 프롬프트 당혹도와의 상관관계가 약에서 보통을 보이며, 한 가지 요인이 성능 향상을 완전히 설명하지는 못한다.
- 자동 역할 탐색 전략은 기준선보다 우수하고 최적 역할 성능에 근접할 수 있지만, 질문당 최적 역할을 안정적으로 예측하는 것은 여전히 도전적이다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.