[논문 리뷰] Note2Chat: Improving LLMs for Multi-Turn Clinical History Taking Using Medical Notes
Note2Chat은 의료 노트를 대화로 변환하여 구조화된, 노트-가이드 다중 턴 병력 청취 및 차분 진단을 수행하도록 LLM을 훈련시키며, 정보 수집 및 진단 정확도를 향상시키기 위해 세 단계의 파인튜닝과 단일 턴 추론 패러다임을 사용합니다.
Effective clinical history taking is a foundational yet underexplored component of clinical reasoning. While large language models (LLMs) have shown promise on static benchmarks, they often fall short in dynamic, multi-turn diagnostic settings that require iterative questioning and hypothesis refinement. To address this gap, we propose \method{}, a note-driven framework that trains LLMs to conduct structured history taking and diagnosis by learning from widely available medical notes. Instead of relying on scarce and sensitive dialogue data, we convert real-world medical notes into high-quality doctor-patient dialogues using a decision tree-guided generation and refinement pipeline. We then propose a three-stage fine-tuning strategy combining supervised learning, simulated data augmentation, and preference learning. Furthermore, we propose a novel single-turn reasoning paradigm that reframes history taking as a sequence of single-turn reasoning problems. This design enhances interpretability and enables local supervision, dynamic adaptation, and greater sample efficiency. Experimental results show that our method substantially improves clinical reasoning, achieving gains of +16.9 F1 and +21.0 Top-1 diagnostic accuracy over GPT-4o. Our code and dataset can be found at https://github.com/zhentingsheng/Note2Chat.
연구 동기 및 목표
- 가용한 의료 노트를 활용하여 LLM 기반 병력 수집과 진단을 감독합니다.
- 노트-투-대화 파이프라인을 통해 노트를 현실적인 의사-환자 대화로 변환합니다.
- 대화 품질과 효율성을 최적화하기 위한 3단계 파인 튜닝 전략(SFT, 자기 증강, DPO)을 개발합니다.
- 해석 가능하고 맥락 인지적 턴 및 로컬 감독을 가능하게 하는 단일 턴 추론 패러다임을 도입합니다.
- 기준선 대비 정보 elicitation 및 진단 정확도에서 상당한 향상을 입증합니다.
제안 방법
- Note-driven 대화 생성 및 정제 파이프라인을 만들어 MIMIC-IV 노트로부터 4,972명 환자의 8,944개의 합성 대화를 생산합니다.
- 3단계 파인 튜닝 전략 적용: 노트-가이드 대화에 대한 감독 학습 파인 튜닝(SFT), 궤적 샘플링을 통한 자기 증강(Self-Augmentation), 직접 선호 최적화(DPO).
- 대화 수준의 보상 함수를 도입하여 정보 회상 보상, 상위 5위 내 진단 순위 보상, 더 긴 대화에 대한 페널티(R(tau) 식)를 적용합니다.
- 턴 사이에 <think> 블록을 삽입하여 기억 요약 및 계획 수립을 제공하고, 턴별 감독 및 보상을 가능하게 하는 단일 턴 추론을 구현합니다.
- 전체 대화를 단일 턴 상호작용으로 분해하여 추가 학습 데이터를 확보하고, 높은 품질/낮은 품질 선호 쌍으로 턴-수준 DPO를 적용합니다.

실험 결과
연구 질문
- RQ1의료 병력 수집 및 다중 턴 진단 대화에서 기존 LLM들이 어떤 성능을 보이는가?
- RQ2노트로부터의 감독으로 Note2Chat이 적극적 질문 및 자율 진단 결정을 개선할 수 있는가?
- RQ3파인 튜닝과 선호 학습이 인간 임상의와의 격차를 어느 정도 줄이는가?
- RQ4노트-가이던스 단일 턴 추론 모델이 다중 턴 기준선과 비교해 병력 수집 및 진단에서 더 나은가?
주요 결과
| 모델 | F1 | 재현율 | 정밀도 | Top-1 | Top-2 | Top-3 | #Turn |
|---|---|---|---|---|---|---|---|
| GPT-4o | 29.2 | 33.2 | 30.5 | 49.0 | 61.4 | 67.6 | 22.9 |
| o4-mini | 23.0 | 28.7 | 21.9 | 47.6 | 60.0 | 67.0 | 27.0 |
| Gemini-2.5-flash | 26.6 | 35.5 | 26.7 | 51.4 | 66.2 | 73.0 | 31.9 |
| Qwen2.5-7B-Instruct | 19.6 | 15.7 | 33.0 | 38.8 | 54.8 | 63.2 | 10.3 |
| Qwen3-8B | 17.9 | 13.8 | 34.1 | 33.4 | 46.6 | 55.2 | 8.9 |
| DeepSeek-R1-0528-Qwen3-8B | 29.6 | 34.0 | 32.7 | 37.2 | 51.6 | 61.2 | 23.4 |
| HuatuoGPT-o1-8B | 0.2 | 0.1 | 1.1 | 19.4 | 33.0 | 42.8 | 2.02 |
| MedGemma-4B-it | 27.2 | 31.6 | 28.0 | 40.6 | 55.2 | 62.2 | 23.4 |
| MedGemma-27B-text-it | 27.9 | 31.4 | 30.1 | 52.8 | 66.2 | 71.4 | 21.4 |
| DoctorAgent-RL | 28.4 | 35.1 | 27.5 | 35.6 | - | - | 26.4 |
| Note2Chat-MT | 43.8 | 55.4 | 41.8 | 62.0 | 78.2 | 82.6 | 27.5 |
| Note2Chat-ST | 46.1 | 46.2 | 54.5 | 70.0 | 81.2 | 84.4 | 17.3 |
- Note2Chat-MT 및 Note2Chat-ST는 평가 데이터셋에서 병력 수집 및 진단 측면에서 모든 기준선 대비 우수합니다.
- Note2Chat-ST는 평균 17.3 턴에서 F1 46.1%, 재현율 46.2%, 정밀도 54.5%, Top-1 70.0%를 달성합니다.
- Note2Chat-MT는 평균 27.5 턴에서 F1 43.8%, 재현율 55.4%, 정밀도 41.8%, Top-1 62.0%를 달성합니다.
- 기본 Qwen2.5-7B-Instruct는 SFT, Self-Aug, DPO로 미세 조정될 때 상당한 이득을 보입니다.
- GPT-4o 및 Gemini-2.5-flash는 시작 성능이 더 높지만, 파인 튜닝 후 Note2Chat 모델이 특히 재현율 및 Top-K 정확도에서 이를 능가합니다.
- 단일 턴 추론은 더 적은 턴으로도 높은 성능을 달성하며 다중 턴 대비 효율이 향상됩니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.