[論文レビュー] A Computational Framework for Behavioral Assessment of LLM Therapists
Boltは、LLMセラピストの行動を体系的に特徴付けるためのフレームワークであり、高品質・低品質の人間セラピーと比較し、プロンプトが行動に与える影響を探る。これには、模擬クライアント-LLM会話とpsychotherapy-technique taxonomyを用いて、行動を特定する。
The emergence of large language models (LLMs) like ChatGPT has increased interest in their use as therapists to address mental health challenges and the widespread lack of access to care. However, experts have emphasized the critical need for systematic evaluation of LLM-based mental health interventions to accurately assess their capabilities and limitations. Here, we propose BOLT, a proof-of-concept computational framework to systematically assess the conversational behavior of LLM therapists. We quantitatively measure LLM behavior across 13 psychotherapeutic approaches with in-context learning methods. Then, we compare the behavior of LLMs against high- and low-quality human therapy. Our analysis based on Motivational Interviewing therapy reveals that LLMs often resemble behaviors more commonly exhibited in low-quality therapy rather than high-quality therapy, such as offering a higher degree of problem-solving advice when clients share emotions. However, unlike low-quality therapy, LLMs reflect significantly more upon clients' needs and strengths. Our findings caution that LLM therapists still require further research for consistent, high-quality care.
研究の動機と目的
- 精神保健ケアに用いられるLLMの系統的な行動評価の必要性を喚起する。
- 一連の技法にわたるLLMセラピストの行動を量的に評価する計算フレームワーク(Bolt)を開発する。
- LLMセラピストの行動を、高品質・低品質の人間セラピーと比較する。
- プロンプティングとモデル選択が高品質なセラピーと行動の整合性に与える影響を探る。
提案手法
- 公開されたセラピー・データセットを用いて、LLMと模擬クライアントとのセラピー対話をシミュレートする、system promptsベースのフレームワークBoltを導入する。
- 確立された心理療法技法から抽出した、13のセラピスト行動と6のクライアント行動の utterances に注釈を付ける。
- 多ラベルおよび二値ラベルの行動分類タスクで、GPT-3およびGPT-4ファミリーのモデル、さらにはLlama2系列を評価する。
- 心理療法の定義と例を用いたインコンテキスト・ラーニングで行動を特定し、高品質および低品質の人間セラピーのベースラインと比較する。
- 行動の頻度・時系列順序・モデル間の適応性を分析し、行動に対する明示的なプロンプトの変化が影響するかを評価する。
実験結果
リサーチクエスチョン
- RQ1Boltはセラピー会話からセラピストとクライアントの行動を信頼性高く特定できるか。
- RQ2LLMセラピストの行動は、高品質・低品質の人間セラピーのセッションとどのように比較されるか。
- RQ3プロンプティング戦略とモデル選択は、LLMsをより高品質な治療行動へと誘導するか。
- RQ4人間と比較して、LLMsは問題解決/解決志向の行動より、反省的/正規化的な行動に傾きやすいか。
- RQ5LLMsは高品質なセラピーに近い形でクライアントのニーズと強みを反映できる程度はどの程度か。
主な発見
- 心理療法の定義と例を用いたプロンプティングは、セラピスト行動のマクロF1を最も良くし、(57.7% macro-F1)。
- プロンプティングを用いたクライアント行動分類(二値ラベル)は、最良のmacro-F1(76.7%)を達成。
- LLMセラピストは、低品質の人間セラピーに類似した問題解決行動をより高く示すが、同時にクライアントの感情や経験を従来の低品質セラピーよりも多く反映している。
- GPT-4およびGPT-3.5-turboは、Llama2系統よりも一般に解決志向の行動を多く示し、RLHFに沿った傾向がこれらのパターンに影響を与えていることを示唆する。
- 模擬LLMセラピーは、行動頻度の点でしばしば低品質の人間セラピーとより一致しており、高品質ケアとの現状の非理想的な整合性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。