[논문 리뷰] Response Generation for Cognitive Behavioral Therapy with Large Language Models: Comparative Study with Socratic Questioning
본 논문은 LLM 생성 응답(OsakaED 및 GPT-4)을 시나리오 기반 CBT 대화와 비교하여, 소크라테스식 질문 CBT 프레임워크에서 기분 변화, 인지 변화, 대화 품질을 평가한다. GPT-4는 여러 결과를 개선했고; OsakaED는 시나리오 기반 대화보다 현저한 이점이 나타나지 않았다.
Dialogue systems controlled by predefined or rule-based scenarios derived from counseling techniques, such as cognitive behavioral therapy (CBT), play an important role in mental health apps. Despite the need for responsible responses, it is conceivable that using the newly emerging LLMs to generate contextually relevant utterances will enhance these apps. In this study, we construct dialogue modules based on a CBT scenario focused on conventional Socratic questioning using two kinds of LLMs: a Transformer-based dialogue model further trained with a social media empathetic counseling dataset, provided by Osaka Prefecture (OsakaED), and GPT-4, a state-of-the art LLM created by OpenAI. By comparing systems that use LLM-generated responses with those that do not, we investigate the impact of generated responses on subjective evaluations such as mood change, cognitive change, and dialogue quality (e.g., empathy). As a result, no notable improvements are observed when using the OsakaED model. When using GPT-4, the amount of mood change, empathy, and other dialogue qualities improve significantly. Results suggest that GPT-4 possesses a high counseling ability. However, they also indicate that even when using a dialogue model trained with a human counseling dataset, it does not necessarily yield better outcomes compared to scenario-based dialogues. While presenting LLM-generated responses, including GPT-4, and having them interact directly with users in real-life mental health care services may raise ethical issues, it is still possible for human professionals to produce example responses or response templates using LLMs in advance in systems that use rules, scenarios, or example responses.
연구 동기 및 목표
- 정신 건강 접근성 격차를 해소하기 위한 CBT 지향 대화 시스템의 활용 동기 부여.
- 소크라테스식 질문을 LLM 생성 응답으로 대체하거나 보완하는 것이 사용자 경험과 CBT 결과를 향상시키는지 조사.
- CBT 대화에서 효과를 평가하기 위해 두 가지 LLM(OsakaED 및 GPT-4)을 평가.
제안 방법
- 소크라테스식 질문(A B C 모델)을 중심으로 15턴 CBT 대화 시나리오를 구성한다.
- SQ(Socratic questions), OsakaED, OsakaED+SQ, GPT-4, GPT-4+SQ 등 다섯 시스템을 구현한다.
- 상담가 데이터로 미세조정된 OsakaED(1.6B 매개변수)와 고정된 시스템 프롬프트를 가진 OpenAI API를 통한 GPT-4를 사용한다.
- 무드 변화, 인지 변화(CC-immediate), 15개의 대화 품질 지표를 대상으로 105명의 크라우드소싱 참가자들로 평가한다.
- 공식으로 기분 변화 계산: Mood change = -(mood_end - mood_initial)/(mood_initial).
- 시스템 간 분포를 비교하기 위해 Mann-Whitney U-검정을 사용하여 분석한다.
실험 결과
연구 질문
- RQ1단일 CBT 세션 후 소크라테스식 질문을 LLM 생성 응답으로 대체하거나 결합하는 것이 기분 변화를 향상시키는가?
- RQ2OsakaED 또는 GPT-4의 LLM 생성 응답이 SQ 단독과 비교하여 인지 변화(CC-immediate)와 대화 품질(공감, 신뢰, 참여)을 향상시키는가?
- RQ3CBT 대화를 위한 도메인 특화 모델(OsakaED)과 일반목적 모델(GPT-4) 간 결과에 질적 차이가 있는가?
주요 결과
- GPT-4는 SQ 또는 OsakaED보다 더 높은 기분 변화와 많은 대화 품질 점수를 보였다.
- OsakaED는 기분 변화나 CC-immediate에서 시나리오 기반 대화에 비해 현저한 개선을 보이지 못했다.
- GPT-4 또는 OsakaED에 SQ를 추가하면 일관성 및 기타 UX 지표가 다소 달라졌지만; GPT-4+SQ는 여전히 강한 공감 및 참여 점수를 보였다.
- GPT-4 및 GPT-4+SQ는 SQ 및 OsakaED 변형보다 더 높은 사용자 공감, 신뢰, 성향, 주체성, 시스템 공감을 달성했다.
- 참가자들 간 시스템 간 K6 고통 수준의 차이는 유의미하지 않았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.