Skip to main content
QUICK REVIEW

[論文レビュー] HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

Chengyu Du, Xintao Wang|arXiv (Cornell University)|Jan 29, 2026
Artificial Intelligence in Games被引用数 0
ひとこと要約

HERは二層思考という推論強化型データ合成パイプラインと、より人間らしく、キャラクターとしてのロールプレイを行うための教師あり微調整と強化学習を通じてLLMを訓練する生成報酬モデルを導入します。CoSERとMinimax Role-Playベンチマークで顕著な向上を報告します。

ABSTRACT

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train HER models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.

研究の動機と目的

  • LLMのロールプレイにおける表面的なペルソナ模倣を超えたより深い認知シミュレーションを可能にする動機。
  • 既存の対話から隠れたシステム思考と可視の役割思考を再構築するスケーラブルなデータパイプラインを開発する。
  • 人間の嗜好に合わせた文脈依存の報酬モデルを作成し、キャラクター内の推論を導くRLを指向する。
  • 標準的なロールプレイベンチマークでアプローチを評価し、システム思考、ケース別原理、トレーニング多様性といった要素を分析する。

提案手法

  • 第三者のシステム思考と第一人称の役割思考を分離するために二層思考を導入する。
  • 表面的なロールプレイ対話を逆算して推論データを自動生成し、推論強化軌跡を作成する。
  • 専門家に Alignした原則から蒸留されたロールプレイ生成報酬モデル(GenRM)を構築し、文脈依存の嗜好信号を提供する。
  • GenRMベースの報酬を用いた監督付き微調整(SFT)に続き、強化学習(RL)でLLMロールプレイ生成器を訓練する。
  • パターン崩れを防ぎ長期的整合性を向上させるための多様性促進の軌跡書換えを組み込む。
  • CoSERとMinimax Role-Playベンチマークを用いて、キャラクター忠実度と物語品質の向上を定量化する。

実験結果

リサーチクエスチョン

  • RQ1二層思考(システム思考と役割思考)はLLMの内部推論と外部のキャラクターとしての振る舞いを改善できるか。
  • RQ2既存のロールプレイデータから manual annotation なしでスケールして推論トレースを構築できるか。
  • RQ3文脈依存のケース別原理セットと対になるGenRM報酬は、RLを効果的にガイドしてキャラクター内の意思決定を改善できるか。
  • RQ4確立されたベンチマーク上で、推論駆動のロールプレイにおけるSFTとRLの利得はどの程度か。

主な発見

  • HER-RLはCoSERでベースラインのQwen3-32Bを30.26%、Minimax Role-Play Benchで14.97%それぞれ上回った。
  • システム思考とRLはCoSER上のストーリーライン品質とキャラクター忠実度を改善した。
  • ケース別原理アプローチによるGenRMは、専門家の嗜好との一致度を固定原則より高く(86–93%)、特にCoTトレースと組み合わせた場合に効果が高い。
  • データと多様な挿入パターンのバランスを取ることで、GRMおよびRL訓練中の報酬ハッキングとパターン崩壊を防ぐ。
  • 応答の前に明示的なシステム思考を有効化するとキャラクター忠実度とストーリーの一貫性が向上し、RLによる追加の利得が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。