[论文解读] An Evaluation of Generative Pre-Training Model-based Therapy Chatbot for Caregivers
本研究评估了一款基于GPT-2的治疗聊天机器人,该模型在306次痴呆症照护者治疗会话上进行微调,以检验其生成质量与情感基调。结果表明,微调后的模型在响应长度上更接近治疗师,但产生了更多非词汇和明显负面的情感倾向,凸显了将生成模型应用于临床心理健康场景所面临的挑战。
With the advent of off-the-shelf intelligent home products and broader internet adoption, researchers increasingly explore smart computing applications that provide easier access to health and wellness resources. AI-based systems like chatbots have the potential to provide services that could provide mental health support. However, existing therapy chatbots are often retrieval-based, requiring users to respond with a constrained set of answers, which may not be appropriate given that such pre-determined inquiries may not reflect each patient's unique circumstances. Generative-based approaches, such as the OpenAI GPT models, could allow for more dynamic conversations in therapy chatbot contexts than previous approaches. To investigate the generative-based model's potential in therapy chatbot contexts, we built a chatbot using the GPT-2 model. We fine-tuned it with 306 therapy session transcripts between family caregivers of individuals with dementia and therapists conducting Problem Solving Therapy. We then evaluated the model's pre-trained and the fine-tuned model in terms of basic qualities using three meta-information measurements: the proportion of non-word outputs, the length of response, and sentiment components. Results showed that: (1) the fine-tuned model created more non-word outputs than the pre-trained model; (2) the fine-tuned model generated outputs whose length was more similar to that of the therapists compared to the pre-trained model; (3) both the pre-trained model and fine-tuned model were likely to generate more negative and fewer positive outputs than the therapists. We discuss potential reasons for the problem, the implications, and solutions for developing therapy chatbots and call for investigations of the AI-based system application.
研究动机与目标
- 探究使用类似GPT-2的生成式预训练模型开发针对痴呆症患者家庭照护者的心理健康治疗聊天机器人的可行性。
- 通过元信息指标评估微调后的GPT-2模型与预训练基线模型在响应质量上的差异。
- 识别生成模型在临床对话场景中的潜在风险与局限性,特别是情感准确性与响应连贯性方面。
- 通过分析情感基调与语言质量方面的性能差距,为未来AI驱动心理健康工具的开发提供依据。
提出的方法
- 在306份痴呆症照护者与持证治疗师之间的实际治疗会话转录本上,对GPT-2中型模型进行微调,采用问题解决疗法(Problem Solving Therapy)方法。
- 使用三项元信息指标评估模型输出:非词汇输出比例、响应长度以及情感成分(正面/负面)。
- 将微调后模型的响应与预训练GPT-2模型及真实治疗师的响应进行对比,以评估改进与偏差情况。
- 应用情感分析量化情感基调,将模型输出与真实治疗师互动中观察到的正向强化模式进行比较。
- 从三个维度评估模型行为:语言质量(非词汇)、结构一致性(响应长度)和情感一致性(情感)。
- 采用定性与定量相结合的方法,评估微调是否提升了模型模仿治疗对话模式的能力。
实验结果
研究问题
- RQ1在治疗会话转录本上对预训练GPT-2模型进行微调,如何影响生成响应的语言质量?
- RQ2微调后模型的响应长度在多大程度上与真实治疗师的响应长度一致?
- RQ3模型响应的情感模式与临床环境中持证治疗师的情感模式相比如何?
- RQ4生成模型在复制治疗对话动态方面存在哪些关键局限性,特别是在情感基调与连贯性方面?
主要发现
- 微调后的GPT-2模型生成的非词汇输出比例高于预训练模型,表明微调后语言质量下降。
- 微调后的模型生成的响应长度在统计学上更接近真实治疗师的响应长度,表明其在结构模仿方面有所改进。
- 预训练模型与微调后模型生成的负面情感显著多于真实治疗师,正面情感则明显更少,表明未能复制治疗中的正向强化模式。
- 模型无法维持正面情感,表明即使在临床数据上进行微调后,其与治疗意图仍存在根本性错位。
- 微调数据集较小(小于7MB)可能是性能下降的主要原因,尤其在生成连贯且情感恰当的响应方面。
- 本研究凸显了在数据稀缺、可解释性不足以及难以与人类在治疗中的认知与情感因素对齐的背景下,将大型生成模型适配至临床领域所面临的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。