QUICK REVIEW

[論文レビュー] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

Zekun Moore Wang, Zhongyuan Peng|arXiv (Cornell University)|Oct 1, 2023

Topic Modeling被引用数 8

ひとこと要約

RoleLLM は RoleBench、Context-Instruct、RoleGPT、RoCIT を導入し、公開ソース LLM の細粒度のロールプレイをベンチマーク、喚起、微調整して、ロール固有のタスクで GPT-4 と競合する結果を達成します。

ABSTRACT

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).

研究の動機と目的

100 のロールの細粒度のロールプロファイルを作成（英語と中国語）し、微妙なロールプレイを可能にする。
Context-Instruct を通じてロール固有の知識と記憶を生成し、高品質な指示データを作成する。
RoleGPT を用いた話し方の模倣を喚起し、ロールカスタマイズのためのシステム指示駆動のチューニングを行う。
RoleBench を用いてオープンソースモデル（RoleLLaMA、RoleGLM）を微調整し、強力なロールプレイ性能を達成する。
RoleBench をロールプレイの評価と改善のためのベンチマークおよびデータセットとして提供する。

提案手法

スクリプトから多様な人格を持つ100 のキャラクター級ロールを作成するためのロールプロファイル作成。
Context-Instruct による文脈ベースの指示生成を用いてロール固有の知識と記憶を抽出し、信頼性のある QA トリプレットを作成する。
GPT を用いたロールプロンプティング（RoleGPT）により対話エンジニアリングベースのプロンプトで話し方を模倣する。」
RoCIT（ロール条件付き指示チューニング）を用い、RoleBench データを使ってオープンソースモデル（RoleLLaMA、RoleGLM）をシステム指示ベースのロールカスタマイズで微調整する。
RoleBench は RoleGPT および Context-Instruct の出力から英語と中国語のロールプレイサンプル 168,093 件を含むデータセットとして提供する。
評価は Rouge-L ベースの指標と GPT ベースの評価者を用いて、話し方の模倣、回答の正確性、ロール固有の知識を評価する。

実験結果

リサーチクエスチョン

RQ1LLM に対する細粒度のキャラクター級ロールベンチマークと対応する知識をどう構築するか。
RQ2データ駆動型アプローチを通じて、オープンソース LLM を GPT-4 に匹敵する強力なロールプレイ能力へ効果的に微調整できるか。
RQ3対話エンジニアリングとプロンプトベース手法のロールプレイ喚起の相対的効果はどのようか。
RQ4文脈効率の高いロール条件付け戦略がロールカスタマイズと知識統合に与える影響は。
RQ5見慣れないロールや言語（英語/中国語）へのロールプレイモデルの一般化能力はいかなるものか。

主な発見

Model	CUS	RAW	SPE	avg.
RoleGPT	0.5764	0.5322	0.3229	0.4772
LLaMA	0.1291	0.1232	0.2553	0.1692
LLaMA-script	0.0832	0.0509	0.1081	0.0807
Alpaca	0.2423	0.3529	0.2695	0.2882
Vicuna	0.2101	0.2550	0.2913	0.2521
RoleLLaMA	0.3294	0.3755	0.3814	0.3621

RoleGPT の対話エンジニアリングによるプロンプトは RoleGPT を基盤とする評価においてゼロショットプロンプトよりもロール挙動を引き出す。
RoleBench はモデルのロールプレイ能力を大幅に向上させ、場合によっては特定の指標で RoleGPT（GPT-4）に匹敵する。
RoleLLaMA は話し方の模倣と正確性において、見慣れないロールにも少ないロール説明とキャッチフレーズで良く一般化する。
システム指示ベースのロールカスタマイズは RoCIT の有効性と文脈効率において取得型（取得拡張）をしのぐ。
Context-Instruct は、プロフィールがノイズが多いか Sparse な場合に、ロール固有の知識をより効果的に強化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。