Skip to main content
QUICK REVIEW

[论文解读] HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

Chengyu Du, Xintao Wang|arXiv (Cornell University)|Jan 29, 2026
Artificial Intelligence in Games被引用 0
一句话总结

HER 引入双层思维,一种推理增强的数据综合管线,以及用于训练大模型实现更具人类特征、在角色扮演中更贴合角色的生成奖励模型,通过监督微调和强化学习实现。它在 CoSER 和 Minimax 角色扮演基准测试上报告了显著提升。

ABSTRACT

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train HER models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.

研究动机与目标

  • 实现对大模型角色扮演中更深层次认知模拟的动力,而非仅仅表层人格模仿。
  • 开发一个可扩展的数据管线,从现有对话中重构隐藏的系统性思维和可见的角色思维。
  • 创建一个与人类偏好对齐的上下文感知奖励模型,引导在角色扮演推理中的 RL。
  • 在标准角色扮演基准上评估该方法,分析系统思维、逐案原则以及训练多样性等组成部分。

提出的方法

  • 引入双层思维,将第三人称系统性思维与第一人称角色思维分离。
  • 通过对表层角色扮演对话的反向工程自动化推理数据综合,以生成推理增强的轨迹。
  • 构建一个从专家对齐原则中提炼出的角色扮演生成奖励模型(GenRM),提供情境依赖的偏好信号。
  • 用监督微调(SFT)后再使用 GenRM 奖励的强化学习(RL)来训练大模型的角色扮演生成器。
  • 引入促进多样性的轨迹重写,防止模式崩溃并改善长时程一致性。
  • 通过 CoSER 和 Minimax 角色扮演基准测试评估,以量化在角色忠诚度和叙事质量方面的提升。

实验结果

研究问题

  • RQ1双层思维(系统思维与角色思维)能否改善大模型角色扮演的内部推理及外部在角色行为上的表现?
  • RQ2如何在不需要人工标注的情况下,从现有角色扮演数据规模化构建推理轨迹?
  • RQ3一个上下文感知、逐案原则集与对 GenRM 奖励的成对约束,能否有效引导 RL 提高在角色内的决策?
  • RQ4在现有基准上,相较于 SFT,RL 在推理驱动的角色扮演中有哪些收益?

主要发现

  • HER-RL 在 CoSER 上显著优于基线 Qwen3-32B,提升 30.26%;在 Minimax 角色扮演基准上提升 14.97%。
  • 系统思维加上 RL 在 CoSER 上提升了故事线质量与角色忠诚度。
  • 逐案原则的 GenRM 相较固定原则在与专家偏好的一致性上达到更高水平(86-93%),尤其是结合因果链(CoT)轨迹时。
  • 在 GRM 和 RL 训练过程中,平衡数据与多样化交错模式有助于防止奖励欺骗与模式崩溃。
  • 在回答前显式启用系统性思维可提高角色忠诚度和故事线的一致性,且 RL 提供额外收益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。