QUICK REVIEW

[論文レビュー] Response Generation for Cognitive Behavioral Therapy with Large Language Models: Comparative Study with Socratic Questioning

Kenta Izumi, Hiroki Tanaka|arXiv (Cornell University)|Jan 29, 2024

Psychological Treatments and Assessments被引用数 5

ひとこと要約

本論文はLLM生成回答（OsakaEDとGPT-4）を scenario-based CBT対話と比較し、Socratic-questioning CBTフレームワークにおける感情変化、認知変化、対話品質を評価する。GPT-4は複数の指標で改善したが、OsakaEDは scenario-based対話に比べて顕著な利得を示さなかった。

ABSTRACT

Dialogue systems controlled by predefined or rule-based scenarios derived from counseling techniques, such as cognitive behavioral therapy (CBT), play an important role in mental health apps. Despite the need for responsible responses, it is conceivable that using the newly emerging LLMs to generate contextually relevant utterances will enhance these apps. In this study, we construct dialogue modules based on a CBT scenario focused on conventional Socratic questioning using two kinds of LLMs: a Transformer-based dialogue model further trained with a social media empathetic counseling dataset, provided by Osaka Prefecture (OsakaED), and GPT-4, a state-of-the art LLM created by OpenAI. By comparing systems that use LLM-generated responses with those that do not, we investigate the impact of generated responses on subjective evaluations such as mood change, cognitive change, and dialogue quality (e.g., empathy). As a result, no notable improvements are observed when using the OsakaED model. When using GPT-4, the amount of mood change, empathy, and other dialogue qualities improve significantly. Results suggest that GPT-4 possesses a high counseling ability. However, they also indicate that even when using a dialogue model trained with a human counseling dataset, it does not necessarily yield better outcomes compared to scenario-based dialogues. While presenting LLM-generated responses, including GPT-4, and having them interact directly with users in real-life mental health care services may raise ethical issues, it is still possible for human professionals to produce example responses or response templates using LLMs in advance in systems that use rules, scenarios, or example responses.

研究の動機と目的

メンタルヘルスへのアクセスギャップを解消するためにCBTガイド付き対話システムの利用を動機づける。
Socratic questionsを置換・補完するLLM生成応答がユーザー体験とCBT成果を向上させるかを調査する。
OsakaEDとGPT-4という2つのLLMのCBT対話における有効性を評価する。

提案手法

Socratic questioning（ABCモデル）を中心とした15ターンのCBT対話シナリオを作成する。
5つのシステムを実装する：SQ（Socratic questions）、OsakaED、OsakaED+SQ、GPT-4、GPT-4+SQ。
CounselorデータでファインチューニングされたOsakaED（1.6Bパラメータ）と、固定システムプロンプトを用いたOpenAI API経由のGPT-4を使用する。
mood変化、認知変化（CC-immediate）、および15の対話品質指標で105名のクラウドソーシング参加者を評価する。
Mood changeの算出式： Mood change = -(mood_end - mood_initial)/(mood_initial)。
分析にはMann-Whitney U検定を用いてシステム間の分布を比較する。

実験結果

リサーチクエスチョン

RQ1単一のCBTセッションの後にSocratic questionsをLLM生成応答と置換・併用することは、感情変化を改善するか。
RQ2OsakaEDまたはGPT-4のLLM生成応答は、SQ単独と比べて認知変化（CC-immediate）および対話品質（共感、信頼、関与）を向上させるか。
RQ3CBT対話においてドメイン特化モデル（OsakaED）と一般用途モデル（GPT-4）のアウトカムには定性的な差があるか。

主な発見

GPT-4はSQやOsakaEDよりも高い感情変化や多くの対話品質指標を示した。
OsakaEDは感情やCC-immediateの点でscenario-based対話と顕著な改善を示さなかった。
GPT-4やGPT-4+SQにSQを追加しても一貫性や他のUX指標において変化がある場合があり得るが、GPT-4+SQは依然として高い共感・関与スコアを示した。
GPT-4およびGPT-4+SQは、SQおよびOsakaEDベースの変種よりも高いユーザー共感、信頼、個性、主体性、システムの共感を達成した。
K6の苦痛度にはシステム間で参加者間の有意差はみられなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。