[论文解读] Response Generation for Cognitive Behavioral Therapy with Large Language Models: Comparative Study with Socratic Questioning
本文比较 LLM 生成的回答(OsakaED 和 GPT-4)与基于场景的 CBT 对话,评估在苏格拉底式提问框架下的情绪变化、认知变化和对话质量。GPT-4 在多项指标上有所提升;OsakaED 相较于基于场景的对话未显示显著提升。
Dialogue systems controlled by predefined or rule-based scenarios derived from counseling techniques, such as cognitive behavioral therapy (CBT), play an important role in mental health apps. Despite the need for responsible responses, it is conceivable that using the newly emerging LLMs to generate contextually relevant utterances will enhance these apps. In this study, we construct dialogue modules based on a CBT scenario focused on conventional Socratic questioning using two kinds of LLMs: a Transformer-based dialogue model further trained with a social media empathetic counseling dataset, provided by Osaka Prefecture (OsakaED), and GPT-4, a state-of-the art LLM created by OpenAI. By comparing systems that use LLM-generated responses with those that do not, we investigate the impact of generated responses on subjective evaluations such as mood change, cognitive change, and dialogue quality (e.g., empathy). As a result, no notable improvements are observed when using the OsakaED model. When using GPT-4, the amount of mood change, empathy, and other dialogue qualities improve significantly. Results suggest that GPT-4 possesses a high counseling ability. However, they also indicate that even when using a dialogue model trained with a human counseling dataset, it does not necessarily yield better outcomes compared to scenario-based dialogues. While presenting LLM-generated responses, including GPT-4, and having them interact directly with users in real-life mental health care services may raise ethical issues, it is still possible for human professionals to produce example responses or response templates using LLMs in advance in systems that use rules, scenarios, or example responses.
研究动机与目标
- 推动使用以 CBT 为导向的对话系统来解决心理健康获取难题。
- 探讨用 LLM 生成的回应替代或补充苏格拉底式提问,是否能改善用户体验和 CBT 结果。
- 评估两种 LLM(OsakaED 和 GPT-4)在 CBT 对话中的有效性。
提出的方法
- 构建以苏格拉底式提问(ABC 模型)为中心的 15 回 CBT 对话情景。
- 实现五套系统:SQ(苏格拉底问题)、OsakaED、OsakaED+SQ、GPT-4、GPT-4+SQ。
- 使用经过辅导员数据微调的 OsakaED(1.6B 参数)以及通过 OpenAI API 以固定系统提示的 GPT-4。
- 以105名众包参与者评估情绪变化、认知变化(CC-即时)和 15 项对话质量指标。
- 用公式计算情绪变化:Mood change = -(mood_end - mood_initial)/(mood_initial)。
- 使用 Mann-Whitney U 检验比较各系统的分布。
实验结果
研究问题
- RQ1在单次 CBT 课后,用 LLM 生成的回应替代或结合苏格拉底式提问是否能改善情绪变化?
- RQ2相较于仅使用 SQ,OsakaED 或 GPT-4 生成的回应是否提升认知变化(CC-immediate)和对话质量(同理心、信任、参与度)?
- RQ3在 CBT 对话中,领域专用模型(OsakaED)和通用模型(GPT-4)之间是否存在结果上的定性差异?
主要发现
- GPT-4 在情绪变化和许多对话质量指标上高于 SQ 或 OsakaED。
- OsakaED 在情绪或 CC-immediate 上并未显著优于情景对话。
- 向 GPT-4 或 OsakaED 中添加 SQ 常常在一致性和其他用户体验指标上有变化;GPT-4+SQ 仍显示出强烈的同理心与参与度得分。
- GPT-4 与 GPT-4+SQ 在用户同理心、信任、个性、主动性和系统同理心等方面高于 SQ 与 OsakaED 变体。
- 参与者在各系统之间 K6 抑郁水平没有显著差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。