[논문 리뷰] Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias
이 논문은 GPT-4 기반 다중 에이전트 프레임워크가 임상 팀 역학을 시뮬레이션하고 인지 편향을 완화함으로써 도전적 사례에서 진단 정확도를 향상시킬 수 있음을 보여주며 상위 차이 진단 정확도를 0%에서 71.3%로, 최종 두 차이 진단을 80%로 올립니다.
Background: Cognitive biases in clinical decision-making significantly contribute to errors in diagnosis and suboptimal patient outcomes. Addressing these biases presents a formidable challenge in the medical field. Objective: This study explores the role of large language models (LLMs) in mitigating these biases through the utilization of a multi-agent framework. We simulate the clinical decision-making processes through multi-agent conversation and evaluate its efficacy in improving diagnostic accuracy. Methods: A total of 16 published and unpublished case reports where cognitive biases have resulted in misdiagnoses were identified from the literature. In the multi-agent framework, we leveraged GPT-4 to facilitate interactions among four simulated agents to replicate clinical team dynamics. Each agent has a distinct role: 1) To make the final diagnosis after considering the discussions, 2) The devil's advocate and correct confirmation and anchoring bias, 3) The tutor and facilitator of the discussion to reduce premature closure bias, and 4) To record and summarize the findings. A total of 80 simulations were evaluated for the accuracy of initial diagnosis, top differential diagnosis and final two differential diagnoses. Results: In a total of 80 responses evaluating both initial and final diagnoses, the initial diagnosis had an accuracy of 0% (0/80), but following multi-agent discussions, the accuracy for the top differential diagnosis increased to 71.3% (57/80), and for the final two differential diagnoses, to 80.0% (64/80). Conclusions: The framework demonstrated an ability to re-evaluate and correct misconceptions, even in scenarios with misleading initial investigations. The LLM-driven multi-agent conversation framework shows promise in enhancing diagnostic accuracy in diagnostically challenging medical scenarios.
연구 동기 및 목표
- 임상 진단에서 인지 편향의 필요성 제기.
- 다중 에이전트 LLM 프레임워크가 진단 추론 중 편향을 완화할 수 있는지 조사.
- 초기, 상위 차이 진단, 그리고 최종 두 차이 진단 간의 진단 정확도 개선 평가.
제안 방법
- GPT-4를 사용하여 서로 다른 역할을 가진 4에이전트 프레임워크를 구성: 최종 진단 에이전트, 반대론자(데빌의 애드보카트), 튜터/촉진자, 기록자/요약가.
- 인지 편향이 알려진 16개 사례 보고서에 대해 임상 의사 결정을 시뮬레이션.
- 초기 진단에서 상위 차이 진단 및 최종 두 차이 진단까지의 변화를 평가하기 위해 80회의 시뮬레이션을 수행.
- 초기 진단, 상위 차이 진단, 그리고 최종 두 차이 진단에 대한 정확도 지표를 평가.
실험 결과
연구 질문
- RQ1다중 에이전트 LLM 프레임워크가 진단 추론에서 잘못된 초기 조사와 인지 편향을 교정할 수 있는가?
- RQ2에이전트의 역할(데빌의 애드보카트, 튜터, 기록자)이 진단 정확도에 미치는 영향은 무엇인가?
- RQ3다중 에이전트 설정에서 초기에서 상위 차이 진단 및 최종 두 차이 진단으로의 진단 정확도 변화는 어떻게 되는가?
- RQ4LLM 주도 토론이 진단상 도전적인 시나리오에서 정확도를 향상시킬 수 있는가?
주요 결과
- 초기 진단의 정확도는 0%였습니다(0/80).
- 다중 에이전트 토론 후 상위 차이 진단의 정확도가 71.3%(57/80)로 올랐습니다.
- 최종 두 차이 진단의 정확도는 80.0%(64/80)에 도달했습니다.
- 이 프레임워크는 초기 데이터를 잘못 제시한 경우에도 오해의 재평가와 수정이 가능함을 보여주었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.