[論文レビュー] The Capability of Large Language Models to Measure Psychiatric Functioning
Med-PaLM 2 は 医学知識で調整された LLM であり、臨床面接からうつ病およびPTSDのスコアを推定でき、うつ病では人間の評価者と同等の性能を示し、PTSD では高い特異度を持ち、タスク特化の学習を用いずにプロンプトを用いる。
The current work investigates the capability of Large language models (LLMs) that are explicitly trained on large corpuses of medical knowledge (Med-PaLM 2) to predict psychiatric functioning from patient interviews and clinical descriptions without being trained to do so. To assess this, n = 145 depression and n =115 PTSD assessments and n = 46 clinical case studies across high prevalence/high comorbidity disorders (Depressive, Anxiety, Psychotic, trauma and stress, Addictive disorders) were analyzed using prompts to extract estimated clinical scores and diagnoses. Results demonstrate that Med-PaLM 2 is capable of assessing psychiatric functioning across a range of psychiatric conditions with the strongest performance being the prediction of depression scores based on standardized assessments (Accuracy range= 0.80 - 0.84) which were statistically indistinguishable from human clinical raters t(1,144) = 1.20; p = 0.23. Results show the potential for general clinical language models to flexibly predict psychiatric risk based on free descriptions of functioning from both patients and clinicians.
研究の動機と目的
- 大規模な医学知識で訓練された LLM(Med-PaLM 2)が、臨床インタビューからタスク特化の訓練を行わずに精神症状の重症度と診断を予測できるかを示す。
- PHQ-8(うつ)および PCL-C(PTSD)のスコア推定能力と適正診断(caseness)を評価する。
- ケーススタディから DSM-5 の診断カテゴリをラベリングするモデルの能力を評価し、その推論を説明する。
- モデルが生成する説明を検査し、それらが診断的に有益で臨床的に妥当かを判断する。
提案手法
- PHQ-8 および PCL-C の知識に焦点を当て、スコアと信頼度推定を抽出するように調整したプロンプトを用いて、Med-PaLM 2(L モデル)を使用する。
- プロンプト構造は関連の評価尺度に注意を向け、スコア推定、信頼度、および記述的推論を要求するように構成する。
- 標準指標(精度、感度、特異度、MAE、RMSE、Cohen's κ、Pearson r)を用いてモデル推定と人間評価者を比較する。
- DSM-5 に対応する用語の頻度とモデル生成のテキスト説明を分析して、診断的に記述力を評価する。
- タスク特化の訓練を行わずに広範な診断ラベリングをテストするために、DSM-5 Clinical Cases のケーススタディ集合を利用する。
実験結果
リサーチクエスチョン
- RQ1臨床インタビューから PHQ-8 および PCL-C のスコアを、タスク特化の訓練を行わずに Med-PaLM 2 が予測できるか?
- RQ2うつおよびPTSDの評価におけるモデルの性能は、精度、誤差、および診断精度の点で人間評価者とどう比較されるか?
- RQ3Med-PaLM 2 はケーススタディから DSM-5 の診断カテゴリーを高い精度でラベリングできるか?
- RQ4モデルの説明には MDD(うつ病性障害)および PTSD の診断推論と一致する内容が含まれているか?
- RQ5このアプローチを用いた共病や診断の修飾因子の特定における限界は何か?
主な発見
| Metric | PCL-C | PHQ-8 |
|---|---|---|
| Accuracy | 0.74 | 0.80 |
| F1 Score | 0.64 | 0.77 |
| Precision | 0.88 | 0.65 |
| Sensitivity | 0.30 | 0.75 |
| Specificity | 0.98 | 0.82 |
| MAE | 9.07 | 2.33 |
| RMSE | 11.2 | 3.93 |
| Kappa with Clinical Ratings | 0.33 | 0.55 |
| Pearson r (p-value) | 0.41 (p < 0.01) | 0.55 (p < 0.01) |
- PHQ-8(うつ)では、精度は 0.80 で、モデルの推定値は人間の評価者と統計的に有意に異ならない(p = 0.23)。
- PCL-C(PTSD)では、精度は 0.74 で、特異度は高い(0.98)一方感度は低い(0.30)。
- モデル-人間の比較では PHQ-8 の Cohen’s κ が 0.55、PCL-C が 0.33 となり、うつに対して中等度の一致、PTSD に対しては落ち着いた一致を示す。
- うつ予測の MAE は 2.33、RMSE は 3.93。PTSD の予測は MAE 9.07、RMSE 11.2。
- ケーススタディで診断カテゴリーを正しくラベルしたのは 92.5%、特定の診断は 77.5% の時点。
- モデルの説明と DSM-5関連用語が出現する可能性が高く、説明可能な要約を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。