[논문 리뷰] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
RoleLLM은 RoleBench, Context-Instruct, RoleGPT, 및 RoCIT를 도입하여 오픈 소스 LLM의 미세한 역할 놀이를 벤치마크하고, 유도하며, 미세 조정하여 GPT-4와 비슷한 역할별 작업에서 경쟁력 있는 결과를 달성한다.
The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).
연구 동기 및 목표
- 영어와 중국어로 된 100개 역할에 대해 미세한 역할 프로필을 구축하여 미묘한 역할 놀이를 가능하게 한다.
- Context-Instruct를 통해 고품질 지시 데이터용 역할별 지식과 기억을 생성한다.
- RoleGPT를 사용한 말하기 스타일 모방을 이끌어내고 시스템 지시 기반 튜닝으로 역할 맞춤화를 한다.
- RoleBench에서 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정하여 강력한 역할 놀이 성능을 달성한다.
- RoleBench를 LLM의 역할 놀이를 평가하고 개선하기 위한 벤치마크 및 데이터세트로 제공한다.
제안 방법
- 스크립트에서 다양한 성격의 100개 문자 수준 역할을 생성하기 위한 역할 프로필 구성.
- 맥락 기반 지시 생성(Context-Instruct)을 통해 역할별 지식과 기억을 추출하고 확신 있는 QA 삼중항을 생성한다.
- GPT를 이용한 Role Prompting(RoleGPT)으로 대화 엔지니어링 기반 프롬프트를 통해 말하기 스타일을 모방한다.
- RoCIT(Role-Conditioned Instruction Tuning)을 사용해 RoleBench 데이터로 시스템 지시 기반의 역할 맞춤화를 통해 오픈 소스 모델(RoleLLaMA, RoleGLM)을 미세 조정한다.
- RoleBench는 English 및 Chinese에 대해 RoleGPT와 Context-Instruct 출력으로부터 구축된 168,093개의 역할 놀이 샘플이 포함된 데이터 세트로서.
- Rouge-L 기반 지표와 GPT 기반 평가자를 사용한 평가를 통해 말하기 스타일 모방, 응답 정확성 및 역할별 지식을 평가한다.
실험 결과
연구 질문
- RQ1LLMs에 대해 미세한 수준의 문자-레벨 역할 벤치마크와 상응하는 지식을 어떻게 구성할 수 있을까?
- RQ2데이터 기반 접근을 통해 오픈 소스 LLM을 미세 조정하여 GPT-4에 필적하는 강력한 역할 놀이 능력을 얻을 수 있을까?
- RQ3역할 놀이를 유도하는 데 있어 대화 엔지니어링과 프롬프트 기반 방법의 상대적 효과는 무엇인가?
- RQ4맥락 효율적인 역할 조건화 전략이 역할 맞춤화와 지식 통합에 어떤 영향을 미치는가?
- RQ5보지 않은 역할과 언어(영어/중국어)에 대한 역할 놀이 모델의 일반화 능력은 무엇인가?
주요 결과
| 모델 | CUS | RAW | SPE | 평균 |
|---|---|---|---|---|
| RoleGPT | 0.5764 | 0.5322 | 0.3229 | 0.4772 |
| LLaMA | 0.1291 | 0.1232 | 0.2553 | 0.1692 |
| LLaMA-script | 0.0832 | 0.0509 | 0.1081 | 0.0807 |
| Alpaca | 0.2423 | 0.3529 | 0.2695 | 0.2882 |
| Vicuna | 0.2101 | 0.2550 | 0.2913 | 0.2521 |
| RoleLLaMA | 0.3294 | 0.3755 | 0.3814 | 0.3621 |
- RoleGPT의 대화 엔지니어링 프롬프트는 RoleGPT 기반 평가에서 제로샷 프롬프트보다 역할 행동을 이끌어내는 데 우수하다.
- RoleBench는 모델의 역할 놀이 능력을 크게 향상시키며, 일부 지표에서 RoleGPT(GPT-4)에 필적하기도 한다.
- RoleLLaMA는 최소한의 역할 설명과 캐치프레이즈로도 보지 않은 역할의 말하기 스타일 모방과 정확도에 잘 일반화된다.
- 시스템 지시 기반 역할 커스터마이제이션이 RoCIT에서 검색 보강보다 효과성과 맥락 효율성에서 우수하다.
- Context-Instruct는 프로필이 시끄럽거나 희박할 때 검색 보강보다 역할별 지식을 더 효과적으로 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.