QUICK REVIEW

[논문 리뷰] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

Zekun Moore Wang, Zhongyuan Peng|arXiv (Cornell University)|2023. 10. 01.

Topic Modeling인용 수 8

한 줄 요약

RoleLLM은 RoleBench, Context-Instruct, RoleGPT, 및 RoCIT를 도입하여 오픈 소스 LLM의 미세한 역할 놀이를 벤치마크하고, 유도하며, 미세 조정하여 GPT-4와 비슷한 역할별 작업에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).

연구 동기 및 목표

영어와 중국어로 된 100개 역할에 대해 미세한 역할 프로필을 구축하여 미묘한 역할 놀이를 가능하게 한다.
Context-Instruct를 통해 고품질 지시 데이터용 역할별 지식과 기억을 생성한다.
RoleGPT를 사용한 말하기 스타일 모방을 이끌어내고 시스템 지시 기반 튜닝으로 역할 맞춤화를 한다.
RoleBench에서 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정하여 강력한 역할 놀이 성능을 달성한다.
RoleBench를 LLM의 역할 놀이를 평가하고 개선하기 위한 벤치마크 및 데이터세트로 제공한다.

제안 방법

스크립트에서 다양한 성격의 100개 문자 수준 역할을 생성하기 위한 역할 프로필 구성.
맥락 기반 지시 생성(Context-Instruct)을 통해 역할별 지식과 기억을 추출하고 확신 있는 QA 삼중항을 생성한다.
GPT를 이용한 Role Prompting(RoleGPT)으로 대화 엔지니어링 기반 프롬프트를 통해 말하기 스타일을 모방한다.
RoCIT(Role-Conditioned Instruction Tuning)을 사용해 RoleBench 데이터로 시스템 지시 기반의 역할 맞춤화를 통해 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정한다.
RoleBench는 English 및 Chinese에 대해 RoleGPT와 Context-Instruct 출력으로부터 구축된 168,093개의 역할 놀이 샘플이 포함된 데이터 세트로서.
Rouge-L 기반 지표와 GPT 기반 평가자를 사용한 평가를 통해 말하기 스타일 모방, 응답 정확성 및 역할별 지식을 평가한다.

실험 결과

연구 질문

RQ1LLMs에 대해 미세한 수준의 문자-레벨 역할 벤치마크와 상응하는 지식을 어떻게 구성할 수 있을까?
RQ2데이터 기반 접근을 통해 오픈 소스 LLM을 미세 조정하여 GPT-4에 필적하는 강력한 역할 놀이 능력을 얻을 수 있을까?
RQ3역할 놀이를 유도하는 데 있어 대화 엔지니어링과 프롬프트 기반 방법의 상대적 효과는 무엇인가?
RQ4맥락 효율적인 역할 조건화 전략이 역할 맞춤화와 지식 통합에 어떤 영향을 미치는가?
RQ5보지 않은 역할과 언어(영어/중국어)에 대한 역할 놀이 모델의 일반화 능력은 무엇인가?

주요 결과

모델	CUS	RAW	SPE	평균
RoleGPT	0.5764	0.5322	0.3229	0.4772
LLaMA	0.1291	0.1232	0.2553	0.1692
LLaMA-script	0.0832	0.0509	0.1081	0.0807
Alpaca	0.2423	0.3529	0.2695	0.2882
Vicuna	0.2101	0.2550	0.2913	0.2521
RoleLLaMA	0.3294	0.3755	0.3814	0.3621

RoleGPT의 대화 엔지니어링 프롬프트는 RoleGPT 기반 평가에서 제로샷 프롬프트보다 역할 행동을 이끌어내는 데 우수하다.
RoleBench는 모델의 역할 놀이 능력을 크게 향상시키며, 일부 지표에서 RoleGPT(GPT-4)에 필적하기도 한다.
RoleLLaMA는 최소한의 역할 설명과 캐치프레이즈로도 보지 않은 역할의 말하기 스타일 모방과 정확도에 잘 일반화된다.
시스템 지시 기반 역할 커스터마이제이션이 RoCIT에서 검색 보강보다 효과성과 맥락 효율성에서 우수하다.
Context-Instruct는 프로필이 시끄럽거나 희박할 때 검색 보강보다 역할별 지식을 더 효과적으로 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.