[논문 리뷰] MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation
MIND는 Criteria-Grounded Psychiatric Reasoning Bank(PRB), rubric-based process supervision, 그리고 가치 인식 경로 정정을 활용해 다중 턴 대화에서 진단 정확도, 공감적 상호작용, 해석 가능성을 개선하는 psychiatric consultation을 위한 통합 탐구–진단 강화 학습 프레임워크를 도입합니다.
Large language models (LLMs) have advanced medical dialogue systems, yet psychiatric consultation poses substantially higher demands due to subjective ambiguity and comorbidity complexity: an agent must continuously extract psychopathological cues from incomplete and inconsistent patient reports in multi-turn interactions and perform rigorous differential diagnostic reasoning. However, existing methods face two fundamental challenges. First, without criteria-grounded clinical supports, they are prone to unsupported clinical assertions when symptoms are atypical or underspecified. Second, in multi-turn interactions, they struggle to mitigate inquiry drift (off-topic or low-yield questioning) and optimize questioning strategies. To address these challenges, we propose MIND, a unified inquiry--diagnosis reinforcement learning framework for psychiatric consultation. Specifically, we build a Criteria-Grounded Psychiatric Reasoning Bank (PRB) that summarizes dialogue context into clinical retrieval states, retrieves semantically similar reference consultations, and distills reusable criteria-grounded clinical supports to guide criteria-aligned inquiry and reasoning. Building on this foundation, MIND enforces explicit clinical reasoning with rubric-based process rewards to provide fine-grained supervision over intermediate decision steps, and incorporates a value-aware trajectory rectification mechanism to jointly improve information acquisition and diagnostic decision-making across turns. Extensive experiments demonstrate that MIND consistently outperforms strong baselines in diagnostic accuracy, empathetic interaction quality, interpretability, and generalization.
연구 동기 및 목표
- 가이드라인 및 문헌에서 조달된 기준 기반 지원으로 추론을 근거화하여 확인되지 않은 임상 주장 감소.
- 다중 턴 정신과 상담에서 회수 및 프로세스 감독으로 유익한 질문으로 유도하여 탐색 편향 감소.
- 명시적 추론 흔적과 구조화된 보상으로 정보 수집과 진단 결정을 함께 최적화하는 강화 학습.
- 명시적 추론 흔적과 임상적으로 정렬된 프롬pts를 통해 해석 가능한 AI 보조 정신과 상담 가능성 확보.
제안 방법
- PRB(Criterion-Grounded Psychiatric Reasoning Bank) 구축: 회수 상태와 기준 정렬 지원 저장.
- 회수 보강 생성(RAG)을 사용하여 PRB 지원을 턴 수준 힌트로 주입해 기준 정렬된 질문 유도.
- 루브릭 기반 프로세스 보상으로 증상 분석, 차별 고려, 의사 결정 로직을 점수화하며 명시적 임상 추론 강제.
- 가치 인식 경로 정정 메커니즘 도입으로 저효용 턴을 탐지하고 자체 재시도 또는 PRB 유도 대체를 촉발.
- 턴 수준 프로세스 신호와 말단 진단 보상을 결합한 단계별 감독 파이프라인으로 RL 파이프라인으로의 학습.
- 진단 정확도, 상호작용 질, 지원 신뢰성 측면에서 진단 시나리오별 환자 시뮬레이터로 평가하고 베이스라인과 비교.
실험 결과
연구 질문
- RQ1Criteria-Grounded PRB에 기반한 문의가 다중 턴 정신과 상담에서 진단 정확도를 향상시키는가?
- RQ2루브릭 기반 프로세스 감독과 가치 인식 정정이 탐색 편향을 줄이고 정보 획득을 개선하는가?
- RQ3PRB 유도 회수가 AI 보조 정신과 인터뷰의 임상 추론의 질과 신뢰성에 어떤 영향을 주는가?
- RQ4MIND가 공감, 해석 가능성, 강건성 측면에서 다양한 정신과 범주에서 강력한 베이스라인과 비교해 어떻게 되는가?
주요 결과
| 모델 | IC | RC | FC (%) | HL |
|---|---|---|---|---|
| GLM-4-9B | 7.3 | 7.1 | 0.0 | 6.5 |
| HuatuoGPT-o1-7B | 8.5 | 8.2 | 0.0 | 7.8 |
| Qwen3-8B | 8.9 | 8.6 | 0.0 | 8.1 |
| Qwen3-8B † | 8.0 | 7.9 | 27.0 | 8.4 |
| Qwen3-32B | 8.? | ? | ? | ? |
| Qwen3-32B † | 8.0 | 8.1 | ? | 8.0 |
| Baichuan-M2 | 8.1 | 8.2 | ? | ? |
| DDT | 54.5 | 50.7 | 55.9 | ? |
| MRD-RAG | 61.5 | 56.8 | 55.9 | ? |
| Fine-tuned Qwen3-4B † | 60.0 | 54.0 | 12.0 | 38.0 |
| Qwen3-8B † | 69.2 | 33.4 | 66.1 | 68.0 |
| DoctorAgent-RL | 58.5 | 53.5 | 55.9 | 52.0 |
| DDO | 59.5 | 53.0 | 56.1 | 46.0 |
| Ours (MIND-4B) | 62.0 | 65.0 | 56.0 | 52.0 |
| Ours (MIND-8B) | 72.9 | 70.0 | 71.4 | 61.9 |
- MIND는 두 명의 환자 시뮬레이터에서 베이스라인보다 진단 정확도 및 범주별 성능이 더 우수합니다.
- PRB 기반 회수는 기준에 정렬된 의사 결정 단서를 제공하여 놓친 점검과 관련 없는 질문을 감소시킵니다.
- 루브릭 기반 프로세스 감독은 턴 수준의 추론을 임상 점검(증상 분석, 차별/배제, 의사 결정 로직)과 일치시킵니다.
- 가치 인식 경로 정정은 자체 재시도 및 PRB 유도 대체를 통해 탐색 편향을 줄이고 안정성과 최종 진단 신뢰성을 향상시킵니다.
- 지원 신뢰성 평가에서 MIND가 검색된 지원 및 환자 맥락과 더 잘 정렬되는 것으로 나타났으며, 많은 베이스라인보다 우수합니다.
- 미세 조정 및 RL 최적화된 MIND 변형은 여러 평가 지표에서 견고한 성능을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.