Skip to main content
QUICK REVIEW

[논문 리뷰] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

Zekun Moore Wang, Zhongyuan Peng|arXiv (Cornell University)|2023. 10. 01.
Topic Modeling인용 수 8
한 줄 요약

RoleLLM은 RoleBench, Context-Instruct, RoleGPT, 및 RoCIT를 도입하여 오픈 소스 LLM의 미세한 역할 놀이를 벤치마크하고, 유도하며, 미세 조정하여 GPT-4와 비슷한 역할별 작업에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).

연구 동기 및 목표

  • 영어와 중국어로 된 100개 역할에 대해 미세한 역할 프로필을 구축하여 미묘한 역할 놀이를 가능하게 한다.
  • Context-Instruct를 통해 고품질 지시 데이터용 역할별 지식과 기억을 생성한다.
  • RoleGPT를 사용한 말하기 스타일 모방을 이끌어내고 시스템 지시 기반 튜닝으로 역할 맞춤화를 한다.
  • RoleBench에서 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정하여 강력한 역할 놀이 성능을 달성한다.
  • RoleBench를 LLM의 역할 놀이를 평가하고 개선하기 위한 벤치마크 및 데이터세트로 제공한다.

제안 방법

  • 스크립트에서 다양한 성격의 100개 문자 수준 역할을 생성하기 위한 역할 프로필 구성.
  • 맥락 기반 지시 생성(Context-Instruct)을 통해 역할별 지식과 기억을 추출하고 확신 있는 QA 삼중항을 생성한다.
  • GPT를 이용한 Role Prompting(RoleGPT)으로 대화 엔지니어링 기반 프롬프트를 통해 말하기 스타일을 모방한다.
  • RoCIT(Role-Conditioned Instruction Tuning)을 사용해 RoleBench 데이터로 시스템 지시 기반의 역할 맞춤화를 통해 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정한다.
  • RoleBench는 English 및 Chinese에 대해 RoleGPT와 Context-Instruct 출력으로부터 구축된 168,093개의 역할 놀이 샘플이 포함된 데이터 세트로서.
  • Rouge-L 기반 지표와 GPT 기반 평가자를 사용한 평가를 통해 말하기 스타일 모방, 응답 정확성 및 역할별 지식을 평가한다.

실험 결과

연구 질문

  • RQ1LLMs에 대해 미세한 수준의 문자-레벨 역할 벤치마크와 상응하는 지식을 어떻게 구성할 수 있을까?
  • RQ2데이터 기반 접근을 통해 오픈 소스 LLM을 미세 조정하여 GPT-4에 필적하는 강력한 역할 놀이 능력을 얻을 수 있을까?
  • RQ3역할 놀이를 유도하는 데 있어 대화 엔지니어링과 프롬프트 기반 방법의 상대적 효과는 무엇인가?
  • RQ4맥락 효율적인 역할 조건화 전략이 역할 맞춤화와 지식 통합에 어떤 영향을 미치는가?
  • RQ5보지 않은 역할과 언어(영어/중국어)에 대한 역할 놀이 모델의 일반화 능력은 무엇인가?

주요 결과

모델CUSRAWSPE평균
RoleGPT0.57640.53220.32290.4772
LLaMA0.12910.12320.25530.1692
LLaMA-script0.08320.05090.10810.0807
Alpaca0.24230.35290.26950.2882
Vicuna0.21010.25500.29130.2521
RoleLLaMA0.32940.37550.38140.3621
  • RoleGPT의 대화 엔지니어링 프롬프트는 RoleGPT 기반 평가에서 제로샷 프롬프트보다 역할 행동을 이끌어내는 데 우수하다.
  • RoleBench는 모델의 역할 놀이 능력을 크게 향상시키며, 일부 지표에서 RoleGPT(GPT-4)에 필적하기도 한다.
  • RoleLLaMA는 최소한의 역할 설명과 캐치프레이즈로도 보지 않은 역할의 말하기 스타일 모방과 정확도에 잘 일반화된다.
  • 시스템 지시 기반 역할 커스터마이제이션이 RoCIT에서 검색 보강보다 효과성과 맥락 효율성에서 우수하다.
  • Context-Instruct는 프로필이 시끄럽거나 희박할 때 검색 보강보다 역할별 지식을 더 효과적으로 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.