[論文レビュー] Evaluation of ChatGPT for NLP-based Mental Health Applications
この論文は、公開されたソーシャルメディアデータセットを用いて、ゼロショットのChatGPT(GPT-3.5-turbo)を3つのメンタルヘルスのテキスト分類タスク(ストレス、うつ、自殺念慮)に適用し、対して、それぞれF1スコア0.73、0.86、0.37を報告し、単純なベースラインと比較して評価している。
Large language models (LLM) have been successful in several natural language understanding tasks and could be relevant for natural language processing (NLP)-based mental health application research. In this work, we report the performance of LLM-based ChatGPT (with gpt-3.5-turbo backend) in three text-based mental health classification tasks: stress detection (2-class classification), depression detection (2-class classification), and suicidality detection (5-class classification). We obtained annotated social media posts for the three classification tasks from public datasets. Then ChatGPT API classified the social media posts with an input prompt for classification. We obtained F1 scores of 0.73, 0.86, and 0.37 for stress detection, depression detection, and suicidality detection, respectively. A baseline model that always predicted the dominant class resulted in F1 scores of 0.35, 0.60, and 0.19. The zero-shot classification accuracy obtained with ChatGPT indicates a potential use of language models for mental health classification tasks.
研究の動機と目的
- 公開されたソーシャルメディアデータセットを用いて、NLPベースのメンタルヘルス課題におけるChatGPTのゼロショット分類性能を評価する。
- ChatGPTの出力をベースライン優勢モデルと比較し、性能ベンチマークを確立する。
- 混同行列のパターンを分析し、メンタルヘルスアプリケーションにおけるバックエンドとしてLLMsを使用する際の影響を議論する。
提案手法
- OpenAI APIを介してGPT-3.5-turbo ChatGPTを使用し、各投稿ごとに単一クラスのプロンプトを用いる。
- 3つのタスクを評価: ストレス検出(2クラス)、うつ検出(2クラス)、自殺念慮検出(5クラス)。
- F1スコア(マルチクラスで加重)とバランスドアキュラシーを計算し、各タスクの混同行列を検討する。
- データセットソース: ストレス検出データセットはRedditベースの投稿から、うつ検出はRedditとブログから、自殺念慮検出はラベル付き5クラスデータセットから。
- 支配クラスを常に予測するベースラインモデルと結果を比較する。
実験結果
リサーチクエスチョン
- RQ1ゼロショットのChatGPTは、ソーシャルメディアのテキストをストレス/非ストレス、うつ病/非うつ病、および5つの自殺念慮関連クラスに信頼性をもって分類できるか?
- RQ2これらのメンタルヘルス課題におけるChatGPTのゼロショット性能は、単純なベースライン予測と比較してどうか?
- RQ3混同行列は、クラス間の混乱について、特に suicidality five-class 設定で何を示しているか?],"key_findings":["Stress detection achieved F1 = 0.73 (baseline 0.35).","Depression detection achieved F1 = 0.86 (baseline 0.60).","Suicidality detection achieved F1 = 0.37 (baseline 0.19).","Balanced accuracy: stress 0.73, depression 0.85, suicidality 0.33.","Zero-shot ChatGPT shows promising performance relative to baselines, with potential for further improvement via fine-tuning or prompt variation."],
- RQ4table_headers:["Dataset","F1 score","Balanced Accuracy"],
- RQ5table_rows:[ ["Stress Detection","0.73","0.73"], ["Depression Detection","0.86","0.85"], ["Suicidality Detection","0.37","0.33"] ]} };# } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }
- RQ6analysis_summary_id:0} {
主な発見
| データセット | F1スコア | バランスドアキュラシー |
|---|---|---|
| Stress Detection | 0.73 | 0.73 |
| Depression Detection | 0.86 | 0.85 |
| Suicidality Detection | 0.37 | 0.33 |
- Stress detection achieved F1 = 0.73 (baseline 0.35).
- Depression detection achieved F1 = 0.86 (baseline 0.60).
- Suicidality detection achieved F1 = 0.37 (baseline 0.19).
- Balanced accuracy: stress 0.73, depression 0.85, suicidality 0.33.
- Zero-shot ChatGPT shows promising performance relative to baselines, with potential for further improvement via fine-tuning or prompt variation.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。