[論文レビュー] Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
要約: 本論文は、PHQ-9とGAD-7の診断評価を支援するためにLLMの prompting および fine-tuning を評価し、プロプライエタリモデルとオープンソースモデルを専門家のグラウンドトゥルースと比較し、DiagnosticLlamaモデルと関連データセットを公開する。
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
研究の動機と目的
- LLMs が標準化された PHQ-9 および GAD-7 診断手順に従えるかを評価する。
- prompting と fine-tuning のアプローチを、プロプライエタリモデルとオープンソースモデルで比較する。
- 診断基準に基づいて微調整された専門的 DiagnosticLlama モデルを開発・評価する。
- 臨床医が注釈した合成データとモデルアーティファクトを作成・公開して研究を支援する。
提案手法
- PRIMATE の PHQ-9 および GAD-7 のグランドトゥルースデータセットをモデル指針として使用する。
- LLM の出力を hits@k および標準分類指標(正確度、適合率、再現率、F1)で評価する。
- prompting(ナイーブ、例示ベース、ガイダンスベース)と fine-tuning(SFT、RLHF、DPO)をモデル間で探索する。
- MentalllaMa を微調整して DiagnosticLlama を作成し、 prompting の結果と比較する。
- DiagnosticLlama と注釈付きデータセットを Hugging Face と GitHub から公開する。

実験結果
リサーチクエスチョン
- RQ1LLMs は投稿から PHQ-9 および GAD-7 の症状基準を特定して専門家のグラウンドトゥルースと一致させられるか。
- RQ2prompting と fine-tuning が臨床医の評価との整合性にどのように影響するか。
- RQ3プロプライエタリモデルとオープンソースモデルの診断基準への準拠にはどのような違いがあるか。
- RQ4信頼性の高い LLM 支援型精神健康診断 の実務的制約とデータ要件は何か。
主な発見
- LLMs は prompting と fine-tuning の両方の設定で PHQ-9 および GAD-7 タスクに対して専門家の注釈品質に近づく傾向を示す。
- プロプライエタリモデルの GPT-4o-mini およびオープンソースモデルの mixtral-8x7b が、それぞれ主要な評価で優れている。
- DiagnosticLlama の微調整は有望な結果を示す一方で、微調整にはリソース集約的であり本タスクには困難もある。
- 古い LLM や非自回帰モデルは、現代の LLM と比較して顕著な性能差を示す。
- Few-shot prompting と微調整は、ゼロショットベースラインと比較して全般的に性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。