[論文レビュー] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models
RoleLLM は RoleBench、Context-Instruct、RoleGPT、RoCIT を導入し、公開ソース LLM の細粒度のロールプレイをベンチマーク、喚起、微調整して、ロール固有のタスクで GPT-4 と競合する結果を達成します。
The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).
研究の動機と目的
- 100 のロールの細粒度のロールプロファイルを作成(英語と中国語)し、微妙なロールプレイを可能にする。
- Context-Instruct を通じてロール固有の知識と記憶を生成し、高品質な指示データを作成する。
- RoleGPT を用いた話し方の模倣を喚起し、ロールカスタマイズのためのシステム指示駆動のチューニングを行う。
- RoleBench を用いてオープンソースモデル(RoleLLaMA、RoleGLM)を微調整し、強力なロールプレイ性能を達成する。
- RoleBench をロールプレイの評価と改善のためのベンチマークおよびデータセットとして提供する。
提案手法
- スクリプトから多様な人格を持つ100 のキャラクター級ロールを作成するためのロールプロファイル作成。
- Context-Instruct による文脈ベースの指示生成を用いてロール固有の知識と記憶を抽出し、信頼性のある QA トリプレットを作成する。
- GPT を用いたロールプロンプティング(RoleGPT)により対話エンジニアリングベースのプロンプトで話し方を模倣する。」
- RoCIT(ロール条件付き指示チューニング)を用い、RoleBench データを使ってオープンソースモデル(RoleLLaMA、RoleGLM)をシステム指示ベースのロールカスタマイズで微調整する。
- RoleBench は RoleGPT および Context-Instruct の出力から英語と中国語のロールプレイサンプル 168,093 件を含むデータセットとして提供する。
- 評価は Rouge-L ベースの指標と GPT ベースの評価者を用いて、話し方の模倣、回答の正確性、ロール固有の知識を評価する。
実験結果
リサーチクエスチョン
- RQ1LLM に対する細粒度のキャラクター級ロールベンチマークと対応する知識をどう構築するか。
- RQ2データ駆動型アプローチを通じて、オープンソース LLM を GPT-4 に匹敵する強力なロールプレイ能力へ効果的に微調整できるか。
- RQ3対話エンジニアリングとプロンプトベース手法のロールプレイ喚起の相対的効果はどのようか。
- RQ4文脈効率の高いロール条件付け戦略がロールカスタマイズと知識統合に与える影響は。
- RQ5見慣れないロールや言語(英語/中国語)へのロールプレイモデルの一般化能力はいかなるものか。
主な発見
| Model | CUS | RAW | SPE | avg. |
|---|---|---|---|---|
| RoleGPT | 0.5764 | 0.5322 | 0.3229 | 0.4772 |
| LLaMA | 0.1291 | 0.1232 | 0.2553 | 0.1692 |
| LLaMA-script | 0.0832 | 0.0509 | 0.1081 | 0.0807 |
| Alpaca | 0.2423 | 0.3529 | 0.2695 | 0.2882 |
| Vicuna | 0.2101 | 0.2550 | 0.2913 | 0.2521 |
| RoleLLaMA | 0.3294 | 0.3755 | 0.3814 | 0.3621 |
- RoleGPT の対話エンジニアリングによるプロンプトは RoleGPT を基盤とする評価においてゼロショットプロンプトよりもロール挙動を引き出す。
- RoleBench はモデルのロールプレイ能力を大幅に向上させ、場合によっては特定の指標で RoleGPT(GPT-4)に匹敵する。
- RoleLLaMA は話し方の模倣と正確性において、見慣れないロールにも少ないロール説明とキャッチフレーズで良く一般化する。
- システム指示ベースのロールカスタマイズは RoCIT の有効性と文脈効率において取得型(取得拡張)をしのぐ。
- Context-Instruct は、プロフィールがノイズが多いか Sparse な場合に、ロール固有の知識をより効果的に強化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。