[论文解读] Fusian: Multi-LoRA Fusion for Fine-Grained Continuous MBTI Personality Control in Large Language Models
Fusian 引入一个两阶段框架,在 SFT 过程中收集 LoRA 适配器的轨迹,以形成连续的人格流形,并使用 RL 策略动态融合这些适配器,从而在大语言模型中实现对 MBTI 特质强度的精准、连续控制。
Large Language Models (LLMs) have demonstrated impressive capabilities in simulating diverse human behaviors and personalities. However, existing methods for personality control, which include prompt engineering and standard Supervised Fine-Tuning (SFT), typically treat personality traits as discrete categories (e.g., "Extroverted" vs. "Introverted"), lacking the ability to precisely control the intensity of a trait on a continuous spectrum. In this paper, we introduce Fusian, a novel framework for fine-grained, continuous personality control in LLMs. Fusian operates in two stages: (1) Trajectory Collection, where we capture the dynamic evolution of personality adoption during SFT by saving a sequence of LoRA adapters, effectively mapping the continuous manifold of a trait; and (2) RL-based Dynamic Fusion, where we train a policy network using Reinforcement Learning to dynamically compute mixing weights for these frozen adapters. By sampling from a Dirichlet distribution parameterized by the policy network, Fusian fuses multiple adapters to align the model's output with a specific numerical target intensity. Experiments on the Qwen3-14B model demonstrate that Fusian achieves high precision in personality control, significantly outperforming baseline methods in aligning with user-specified trait intensities.
研究动机与目标
- 推动对超越离散 MBTI 分类的连续、细粒度人格控制的需求。
- 提出一个两阶段框架(轨迹收集与基于 RL 的动态融合)以沿连续光谱建模与控制人格强度。
- 利用基于 LoRA 的参数高效微调构建人格特质的轨迹流形。
- 开发一个基于策略的融合机制,从 Dirichlet 分布中采样适配器权重以匹配目标特质强度。
- 在 Qwen3-14B 上展示比基线更高的精度和单调性控制 MBTI 维度。
提出的方法
- 阶段 1:在 SFT 过程中高频率收集 LoRA 适配器,并通过 MBTI 测试评估以构建连续的人格流形(轨迹库)。
- 阶段 2:训练一个 RL 策略,将目标强度映射到对基础适配器的 Dirichlet 分布混合权重,从而实现对适配器的动态融合。
- 将融合后的适配器计算为基础适配器的加权和,并用于推理以实现期望的强度。
- 一个积极的奖励塑形函数驱动 RL 优化,尽量减少与目标强度的偏差。
- 通过稳定的基础选择过程和在特征谱上的均匀采样,确保适配器基础的稳定性与覆盖率。
实验结果
研究问题
- RQ1LLMs 是否能够在超出离散类型分配的情况下,准确控制连续的 MBTI 人格特质强度?
- RQ2如何利用 PEFT 从 SFT 轨迹中提取鲁棒的连续人格流形?
- RQ3以 RL 驱动的多 LoRA 适配器融合是否能够实现与数值目标强度的精确对齐?
- RQ4与提示和其他参数空间方法相比,Fusian 在 MAE 与 MBTI 维度单调性方面有何差异?
- RQ5消融研究揭示稳定基础选择和奖励设计对精确控制的重要性吗?
主要发现
| Model | E | I | N | S | F | T | P | J | Overall_MAE |
|---|---|---|---|---|---|---|---|---|---|
| gpt-5-mini Prompt | 10.98 | 17.49 | 15.38 | 11.95 | 13.18 | 18.89 | 17.29 | 14.58 | 14.97 |
| Qwen3-14B Prompt | 35.45 | 23.35 | 20.97 | 21.24 | 24.88 | 22.71 | 23.64 | 23.43 | 24.46 |
| Qwen3-14B LoRA | 9.58 | 8.60 | 13.81 | 5.00 | 12.87 | 12.80 | 8.54 | 10.26 | 10.18 |
| Qwen3-14B PISF | 16.54 | 19.32 | 16.25 | 17.62 | 20.68 | 20.63 | 19.37 | 22.25 | 19.08 |
| Qwen3-14B P-Vector | 13.50 | 11.80 | 16.93 | 10.53 | 11.21 | 7.51 | 8.16 | 11.27 | 11.36 |
| Qwen3-14B Fusian | 8.26 | 6.75 | 11.88 | 4.49 | 4.95 | 5.44 | 6.35 | 6.21 | 6.79 |
- Fusian 在 MBTI 控制方面的整体 MAE(6.79)在对比方法中最低。
- Fusian 获得最高的整体皮尔逊相关系数(0.88),表明在各维度上的单调控制较强。
- 与标准 LoRA 相比,Fusian 将 MAE 显著降低并提升相关性(示例:Thinking 维度 MAE 5.44 vs. 12.80;相关性最高可达 0.97)。
- 基于提示的方法在精度方面表现有限(例如:gpt-5-mini Prompt MAE 14.97;整体相关性 r 0.35)。
- 消融结果表明动态融合、稳定基础和积极奖励对性能至关重要(如无动态融合时 MAE 10.02,r 0.53)。
- 案例研究显示 Feeling 强度在从分析性向同情性回答的语义迁移中呈现平滑过渡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。