QUICK REVIEW

[论文解读] HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

Chengyu Du, Xintao Wang|arXiv (Cornell University)|Jan 29, 2026

Artificial Intelligence in Games被引用 0

一句话总结

HER 引入双层思维，一种推理增强的数据综合管线，以及用于训练大模型实现更具人类特征、在角色扮演中更贴合角色的生成奖励模型，通过监督微调和强化学习实现。它在 CoSER 和 Minimax 角色扮演基准测试上报告了显著提升。

ABSTRACT

LLM role-playing, i.e., using LLMs to simulate specific personas, has emerged as a key capability in various applications, such as companionship, content creation, and digital games. While current models effectively capture character tones and knowledge, simulating the inner thoughts behind their behaviors remains a challenge. Towards cognitive simulation in LLM role-play, previous efforts mainly suffer from two deficiencies: data with high-quality reasoning traces, and reliable reward signals aligned with human preferences. In this paper, we propose HER, a unified framework for cognitive-level persona simulation. HER introduces dual-layer thinking, which distinguishes characters' first-person thinking from LLMs' third-person thinking. To bridge these gaps, we curate reasoning-augmented role-playing data via reverse engineering and construct human-aligned principles and reward models. Leveraging these resources, we train HER models based on Qwen3-32B via supervised and reinforcement learning. Extensive experiments validate the effectiveness of our approach. Notably, our models significantly outperform the Qwen3-32B baseline, achieving a 30.26 improvement on the CoSER benchmark and a 14.97 gain on the Minimax Role-Play Bench. Our datasets, principles, and models will be released to facilitate future research.

研究动机与目标

实现对大模型角色扮演中更深层次认知模拟的动力，而非仅仅表层人格模仿。
开发一个可扩展的数据管线，从现有对话中重构隐藏的系统性思维和可见的角色思维。
创建一个与人类偏好对齐的上下文感知奖励模型，引导在角色扮演推理中的 RL。
在标准角色扮演基准上评估该方法，分析系统思维、逐案原则以及训练多样性等组成部分。

提出的方法

引入双层思维，将第三人称系统性思维与第一人称角色思维分离。
通过对表层角色扮演对话的反向工程自动化推理数据综合，以生成推理增强的轨迹。
构建一个从专家对齐原则中提炼出的角色扮演生成奖励模型（GenRM），提供情境依赖的偏好信号。
用监督微调（SFT）后再使用 GenRM 奖励的强化学习（RL）来训练大模型的角色扮演生成器。
引入促进多样性的轨迹重写，防止模式崩溃并改善长时程一致性。
通过 CoSER 和 Minimax 角色扮演基准测试评估，以量化在角色忠诚度和叙事质量方面的提升。

实验结果

研究问题

RQ1双层思维（系统思维与角色思维）能否改善大模型角色扮演的内部推理及外部在角色行为上的表现？
RQ2如何在不需要人工标注的情况下，从现有角色扮演数据规模化构建推理轨迹？
RQ3一个上下文感知、逐案原则集与对 GenRM 奖励的成对约束，能否有效引导 RL 提高在角色内的决策？
RQ4在现有基准上，相较于 SFT，RL 在推理驱动的角色扮演中有哪些收益？

主要发现

HER-RL 在 CoSER 上显著优于基线 Qwen3-32B，提升 30.26%；在 Minimax 角色扮演基准上提升 14.97%。
系统思维加上 RL 在 CoSER 上提升了故事线质量与角色忠诚度。
逐案原则的 GenRM 相较固定原则在与专家偏好的一致性上达到更高水平（86-93%），尤其是结合因果链（CoT）轨迹时。
在 GRM 和 RL 训练过程中，平衡数据与多样化交错模式有助于防止奖励欺骗与模式崩溃。
在回答前显式启用系统性思维可提高角色忠诚度和故事线的一致性，且 RL 提供额外收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。