Skip to main content
QUICK REVIEW

[論文レビュー] RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

Zekun Moore Wang, Zhongyuan Peng|arXiv (Cornell University)|Oct 1, 2023
Topic Modeling被引用数 8
ひとこと要約

RoleLLM は RoleBench、Context-Instruct、RoleGPT、RoCIT を導入し、公開ソース LLM の細粒度のロールプレイをベンチマーク、喚起、微調整して、ロール固有のタスクで GPT-4 と競合する結果を達成します。

ABSTRACT

The advent of Large Language Models (LLMs) has paved the way for complex tasks such as role-playing, which enhances user interactions by enabling models to imitate various characters. However, the closed-source nature of state-of-the-art LLMs and their general-purpose training limit role-playing optimization. In this paper, we introduce RoleLLM, a framework to benchmark, elicit, and enhance role-playing abilities in LLMs. RoleLLM comprises four stages: (1) Role Profile Construction for 100 roles; (2) Context-Based Instruction Generation (Context-Instruct) for role-specific knowledge extraction; (3) Role Prompting using GPT (RoleGPT) for speaking style imitation; and (4) Role-Conditioned Instruction Tuning (RoCIT) for fine-tuning open-source models along with role customization. By Context-Instruct and RoleGPT, we create RoleBench, the first systematic and fine-grained character-level benchmark dataset for role-playing with 168,093 samples. Moreover, RoCIT on RoleBench yields RoleLLaMA (English) and RoleGLM (Chinese), significantly enhancing role-playing abilities and even achieving comparable results with RoleGPT (using GPT-4).

研究の動機と目的

  • 100 のロールの細粒度のロールプロファイルを作成(英語と中国語)し、微妙なロールプレイを可能にする。
  • Context-Instruct を通じてロール固有の知識と記憶を生成し、高品質な指示データを作成する。
  • RoleGPT を用いた話し方の模倣を喚起し、ロールカスタマイズのためのシステム指示駆動のチューニングを行う。
  • RoleBench を用いてオープンソースモデル(RoleLLaMA、RoleGLM)を微調整し、強力なロールプレイ性能を達成する。
  • RoleBench をロールプレイの評価と改善のためのベンチマークおよびデータセットとして提供する。

提案手法

  • スクリプトから多様な人格を持つ100 のキャラクター級ロールを作成するためのロールプロファイル作成。
  • Context-Instruct による文脈ベースの指示生成を用いてロール固有の知識と記憶を抽出し、信頼性のある QA トリプレットを作成する。
  • GPT を用いたロールプロンプティング(RoleGPT)により対話エンジニアリングベースのプロンプトで話し方を模倣する。」
  • RoCIT(ロール条件付き指示チューニング)を用い、RoleBench データを使ってオープンソースモデル(RoleLLaMA、RoleGLM)をシステム指示ベースのロールカスタマイズで微調整する。
  • RoleBench は RoleGPT および Context-Instruct の出力から英語と中国語のロールプレイサンプル 168,093 件を含むデータセットとして提供する。
  • 評価は Rouge-L ベースの指標と GPT ベースの評価者を用いて、話し方の模倣、回答の正確性、ロール固有の知識を評価する。

実験結果

リサーチクエスチョン

  • RQ1LLM に対する細粒度のキャラクター級ロールベンチマークと対応する知識をどう構築するか。
  • RQ2データ駆動型アプローチを通じて、オープンソース LLM を GPT-4 に匹敵する強力なロールプレイ能力へ効果的に微調整できるか。
  • RQ3対話エンジニアリングとプロンプトベース手法のロールプレイ喚起の相対的効果はどのようか。
  • RQ4文脈効率の高いロール条件付け戦略がロールカスタマイズと知識統合に与える影響は。
  • RQ5見慣れないロールや言語(英語/中国語)へのロールプレイモデルの一般化能力はいかなるものか。

主な発見

ModelCUSRAWSPEavg.
RoleGPT0.57640.53220.32290.4772
LLaMA0.12910.12320.25530.1692
LLaMA-script0.08320.05090.10810.0807
Alpaca0.24230.35290.26950.2882
Vicuna0.21010.25500.29130.2521
RoleLLaMA0.32940.37550.38140.3621
  • RoleGPT の対話エンジニアリングによるプロンプトは RoleGPT を基盤とする評価においてゼロショットプロンプトよりもロール挙動を引き出す。
  • RoleBench はモデルのロールプレイ能力を大幅に向上させ、場合によっては特定の指標で RoleGPT(GPT-4)に匹敵する。
  • RoleLLaMA は話し方の模倣と正確性において、見慣れないロールにも少ないロール説明とキャッチフレーズで良く一般化する。
  • システム指示ベースのロールカスタマイズは RoCIT の有効性と文脈効率において取得型(取得拡張)をしのぐ。
  • Context-Instruct は、プロフィールがノイズが多いか Sparse な場合に、ロール固有の知識をより効果的に強化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。