[論文レビュー] Depression Diagnosis Dialogue Simulation: Self-improving Psychiatrist with Tertiary Memory
AMC は自己改善と記憶を補強した精神科医エージェントを導入し、退屈さの診断対話をシミュレートして、LLM の重みを再訓練せずに診断と自殺リスク予測を改善します。三層の記憶システムと反省のための supervisor プラグインを活用します。
Mental health issues, particularly depressive disorders, present significant challenges in contemporary society, necessitating the development of effective automated diagnostic methods. This paper introduces the Agent Mental Clinic (AMC), a self-improving conversational agent system designed to enhance depression diagnosis through simulated dialogues between patient and psychiatrist agents. To enhance the dialogue quality and diagnosis accuracy, we design a psychiatrist agent consisting of a tertiary memory structure, a dialogue control and reflect plugin that acts as ``supervisor'' and a memory sampling module, fully leveraging the skills reflected by the psychiatrist agent, achieving great accuracy on depression risk and suicide risk diagnosis via conversation. Experiment results on datasets collected in real-life scenarios demonstrate that the system, simulating the procedure of training psychiatrists, can be a promising optimization method for aligning LLMs with real-life distribution in specific domains without modifying the weights of LLMs, even when only a few representative labeled cases are available.
研究の動機と目的
- リソース制約とスケーラブルな評価の必要性に応じた自動化されたうつ診断の動機づけ。
- memory-augmented psychiatrist エージェントを用いた医師-患者対話のシミュレーションを AMC で開発。
- 記憶のサンプリングと supervisor 主導の反省を通じて LLM のバイアスを低減し、診断精度を向上。
- 実データの対話データセットで AMC を評価し、うつ病と自殺リスク予測の改善を検証。
- LLM 重みを変更せず、細かくラベリングされたデータが限られたドメインへの適用性を示す。
提案手法
- 精神科医エージェントのための三層の第三記憶構造(Conversation Records、EMR、Diagnostic Skills)を提案。
- 結果を導く対話フローを指示し、結果を反映し、診断スキルを生成する supervisor プラグインを付与。
- 関連性と重要性の重み付けを用いたサンプリングベースの記憶選択を用いた EMR とスキルを取得するリトリーバルモジュールを実装。
- 複数の LLM サンプルに対する投票機構を用いて、うつ病と自殺リスク予測を安定化。
- D4 中国語うつ病診断対話データセットを用いてエージェントを訓練・評価する対話をシミュレート。
- Original Dialog (OD) 設定と Simulated Dialog (SD) 設定を比較し、記憶と supervisor コンポーネントをアブレーション。
実験結果
リサーチクエスチョン
- RQ1対話において記憶補強型精神科医エージェントはうつ病と自殺リスクの診断精度を改善できるか。
- RQ2第三層記憶構造と supervisor の反省は精神保健診断タスクにおける LLM のバイアスを低減するか。
- RQ3シミュレートされた対話のパフォーマンスは実世界データの元の対話履歴と比較してどうか。
- RQ4EMR、診断スキル、あるいは両方の記憶の利用が診断結果に与える影響は。
- RQ5LLM 重みを変更せずにラベル付きデータが限られたドメインでこのアプローチは有効か。
主な発見
| Setting | Memory | Original Dialogues | Simulated Dialogues | Depression (Dep.) | Suicide (Su.) | Overall | |
|---|---|---|---|---|---|---|---|
| Quiz (Train) w/o | w/o | 41.0 | 49.8 | 45.4 | 21.8 | 23.4 | 22.6 |
| Quiz (Train) w/ | w/ | 48.2(+7.2) | 51.4(+1.6) | 49.8(+4.4) | 27.6(+5.8) | 26.4(+3.0) | 27.0(+4.4) |
| Exam (Test) w/o | w/o | 28.0 | 26.0 | 27.0 | 16.4 | 12.0 | 14.2 |
| Exam (Test) w/ | w/ | 32.4(+4.4) | 27.0(+1.0) | 29.7(+2.7) | 23.2(+6.8) | 13.6(+1.6) | 18.4(+4.2) |
- 記憶と反省はうつ病と自殺リスク予測を大幅に向上させ、特にうつ病診断精度の最大の改善をもたらす。
- シミュレートされた対話では、記憶搭載システムは堅牢性を向上させるが、症状のロールプレイ精度は依然として LLM にとって課題。
- 複数の記憶タイプ(EMR と診断スキル)を使用する方が、単一の記憶源を用いるよりも安定し高い精度を示す。
- supervisor プラグインは標的化されたリスク予測を強化し、より正確な評価を支援。
- 全体として、AMC は報告された実験でうつ病診断を平均で 6.05% ポイント、自殺予測を 1.8% ポイント改善。
- アブレーション研究は OD 設定で診断スキルがより効果的であり、SD シナリオでは EMR がより寄与することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。