[論文レビュー] CBT-LLM: A Chinese Large Language Model for Cognitive Behavioral Therapy-based Mental Health Question Answering
CBT-LLMは、プロンプトを用いて生成したCBT重視データセットで中国語LLMを微調整し、ベースラインを上回る、構造化されたCBT対応のメンタルヘルスQ&A性能を達成します。
The recent advancements in artificial intelligence highlight the potential of language models in psychological health support. While models trained on data from mental health service platform have achieved preliminary success, challenges persist in areas such as data scarcity, quality, and ensuring a solid foundation in psychological techniques. To address these challenges, this study introduces a novel approach to enhance the precision and efficacy of psychological support through large language models. Specifically, we design a specific prompt derived from principles of Cognitive Behavioral Therapy (CBT) and have generated the CBT QA dataset, specifically for Chinese psychological health Q&A based on CBT structured intervention strategies. Unlike previous methods, our dataset emphasizes professional and structured response. Utilizing this dataset, we fine-tuned the large language model, giving birth to CBT-LLM, the large-scale language model specifically designed for Cognitive Behavioral Therapy techniques. Empirical evaluations demonstrate that CBT-LLM excels in generating structured, professional, and highly relevant responses in psychological health support tasks, showcasing its practicality and quality. The model is available on Hugging Face: https://huggingface.co/Hongbin37/CBT-LLM.
研究の動機と目的
- 中国語のメンタルヘルス対話のためのCBT専用プロンプトとCBT QAデータセットを設計する。
- CBT Q&Aタスクのために、指示調整とLoRAを用いて大規模言語モデルをファインチューニングする。
- 自動指標と人間判断を用いてベースラインと比較評価する。
提案手法
- CBTプロンプトとChatGPTを用いてPsyQA質問にCBT指向の応答を作成し、CBT QAデータセットを形成する。
- CBT QAデータセットを用いて、指示調整と低ランク適応(LoRA)を用いてTransformer-Decoder型LLMをファインチューニングする。
- 3エポックのスケジュールでクロスエントロピー損失を用いて訓練し、16ビット精度とコサイン学習率スケジュールを使用する。
実験結果
リサーチクエスチョン
- RQ1CBTに焦点を当てたプロンプトとデータセットは、LLMsが生成する中国語のメンタルヘルスQ&AのCBT構造、関連性、および有用性を改善できるか?
- RQ2CBT-LLMは、CBT志向の応答において自動評価と人間評価の両方で、Chinese-capableベースラインとどう比較されるか?
- RQ3CBT歪み認識の品質はどの程度で、CBTプロンプトがCBT整合的な出力を生成する信頼性はどれくらいか?
主な発見
| CBT-LLM バックボーン | BLEU | METEOR | CHRF | BLEURT | BERTSCORE |
|---|---|---|---|---|---|
| LLaMA-Chinese-7B | 0.2412 | 0.3758 | 0.2167 | 0.5091 | 0.7793 |
| Alpaca-Chinese-7B | 0.2607 | 0.3991 | 0.2596 | 0.5216 | 0.7849 |
| Qwen-7B | 0.2361 | 0.3726 | 0.2939 | 0.5096 | 0.7802 |
| Baichuan-7B | 0.2648 | 0.4031 | 0.3839 | 0.5247 | 0.7841 |
- CBT-LLMは、CBT QAタスクでベースラインより自動指標スコアが高い(Baichuan-7B、Alpaca-Chinese-7B、LLaMA-Chinese-7B、Qwen-7B)。
- 人間評価は、ベースラインの中でBaichuan-7BがCBT文脈における最も高い関連性、構造順守、および有用性を示した。
- CBTプロンプトは、500サンプルの心理療法士が注釈したサブセットで、認知の歪みを0.69の精度、0.93の再現率、0.65のF1で識別できる。
- CBT-LLMの出力は、CBTベースの心理支援において構造化され、専門的で、利用者ニーズに高く適合すると説明されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。