[論文レビュー] Note2Chat: Improving LLMs for Multi-Turn Clinical History Taking Using Medical Notes
Note2Chat は、医療ノートを対話に変換することで構造化されたノートガイド付きの多ターン歴の取得と鑑別診断を実行するLLMを訓練する。三段階のファインチューニングと単一ターン推論パラダイムを用いて情報収集と診断精度を向上させる。
Effective clinical history taking is a foundational yet underexplored component of clinical reasoning. While large language models (LLMs) have shown promise on static benchmarks, they often fall short in dynamic, multi-turn diagnostic settings that require iterative questioning and hypothesis refinement. To address this gap, we propose \method{}, a note-driven framework that trains LLMs to conduct structured history taking and diagnosis by learning from widely available medical notes. Instead of relying on scarce and sensitive dialogue data, we convert real-world medical notes into high-quality doctor-patient dialogues using a decision tree-guided generation and refinement pipeline. We then propose a three-stage fine-tuning strategy combining supervised learning, simulated data augmentation, and preference learning. Furthermore, we propose a novel single-turn reasoning paradigm that reframes history taking as a sequence of single-turn reasoning problems. This design enhances interpretability and enables local supervision, dynamic adaptation, and greater sample efficiency. Experimental results show that our method substantially improves clinical reasoning, achieving gains of +16.9 F1 and +21.0 Top-1 diagnostic accuracy over GPT-4o. Our code and dataset can be found at https://github.com/zhentingsheng/Note2Chat.
研究の動機と目的
- readily available の医療ノートを活用して LLM 主導の history taking と diagnosis を監督する。
- ノートを現実的な医者-患者対話へ変換するノート-to-dialogue パイプラインを構築する。
- 会話の質と効率を最適化する三段階のファインチューニング戦略(SFT、自己拡張、DPO)を開発する。
- 解釈可能で文脈依存のターンと局所監督を可能にする単一ターン推論パラダイムを導入する。
- ベースラインと比較して情報抽出と診断精度に実質的な利得を実証する。
提案手法
- MIMIC-IV ノートから 4,972 名の患者に対して 8,944 の合成対話を生成するノート駆動の対話生成・改良パイプラインを作成する。
- 三段階ファインチューニング戦略を適用する:ノート指向対話での監視付きファインチューニング、経路サンプリングを用いた自己拡張、直接的な嗜好最適化(DPO)。
- 対話レベルの報酬関数を導入し、情報の想起、トップ5 内の診断ランキング、長い対話の抑制(R(tau)式)を報いる。
- ターン間に <think> ブロックを挿入して memory summaries と planning を提供する単一ターン推論を実装し、ターンごと監督と報酬を可能にする。
- 完全な対話を単一ターンの相互作用に分解して追加データを作成し、ターンレベルの DPO を高品質/低品質の嗜好ペアで適用する。

実験結果
リサーチクエスチョン
- RQ1既存の LLM は医療史の取得と多ターン診断対話でどの程度機能するか?
- RQ2ノート由来の監督を用いて Note2Chat は積極的な質問と自律的な診断判断を改善できるか?
- RQ3ファインチューニングと嗜好学習は人間の臨床医とのギャップをどの程度埋めるか?
- RQ4ノート指向の単一ターン推論モデルは歴史取得と診断において多ターンのベースラインと同等以上か?
主な発見
| Model | F1 | Recall | Precision | Top-1 | Top-2 | Top-3 | #Turn |
|---|---|---|---|---|---|---|---|
| GPT-4o | 29.2 | 33.2 | 30.5 | 49.0 | 61.4 | 67.6 | 22.9 |
| o4-mini | 23.0 | 28.7 | 21.9 | 47.6 | 60.0 | 67.0 | 27.0 |
| Gemini-2.5-flash | 26.6 | 35.5 | 26.7 | 51.4 | 66.2 | 73.0 | 31.9 |
| Qwen2.5-7B-Instruct | 19.6 | 15.7 | 33.0 | 38.8 | 54.8 | 63.2 | 10.3 |
| Qwen3-8B | 17.9 | 13.8 | 34.1 | 33.4 | 46.6 | 55.2 | 8.9 |
| DeepSeek-R1-0528-Qwen3-8B | 29.6 | 34.0 | 32.7 | 37.2 | 51.6 | 61.2 | 23.4 |
| HuatuoGPT-o1-8B | 0.2 | 0.1 | 1.1 | 19.4 | 33.0 | 42.8 | 2.02 |
| MedGemma-4B-it | 27.2 | 31.6 | 28.0 | 40.6 | 55.2 | 62.2 | 23.4 |
| MedGemma-27B-text-it | 27.9 | 31.4 | 30.1 | 52.8 | 66.2 | 71.4 | 21.4 |
| DoctorAgent-RL | 28.4 | 35.1 | 27.5 | 35.6 | - | - | 26.4 |
| Note2Chat-MT | 43.8 | 55.4 | 41.8 | 62.0 | 78.2 | 82.6 | 27.5 |
| Note2Chat-ST | 46.1 | 46.2 | 54.5 | 70.0 | 81.2 | 84.4 | 17.3 |
- Note2Chat-MT および Note2Chat-ST は評価データセットにおける歴史取得と診断の全ベースラインを上回る。
- Note2Chat-ST は平均 17.3 ターンで F1=46.1%、Recall=46.2%、Precision=54.5%、Top-1=70.0%。
- Note2Chat-MT は平均 27.5 ターンで F1=43.8%、Recall=55.4%、Precision=41.8%、Top-1=62.0%。
- Base Qwen2.5-7B-Instruct は SFT、Self-Aug、DPO でファインチューニングすると顕著な改善を示す。
- GPT-4o および Gemini-2.5-flash は初期パフォーマンスが高いが、ファインチューニング後には Note2Chat モデルがそれを上回り、特に Recall と Top-K 精度で優位になる。
- 単一ターン推論は効率を高め、多ターン比較より少ないターン数で高い性能を達成できる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。