Skip to main content
QUICK REVIEW

[논문 리뷰] Evaluation of AI Chatbots for Patient-Specific EHR Questions

Alaleh Hamidi, Kirk Roberts|arXiv (Cornell University)|2023. 06. 05.
Artificial Intelligence in Healthcare and Education인용 수 8
한 줄 요약

본 논문은 식별되지 않은 MIMIC-III 입원 메모에서 환자 특정 QA를 대상으로 ChatGPT 3.5, Claude 및 기타 LLM을 평가하고, 이들이 정확하고 관련성 있으며 포괄적이고 일관된 답변을 제공할 수 있음을 발견했으며, 보다 광범위한 검증과 일관성 개선을 위한 추가 작업이 필요하다.

ABSTRACT

This paper investigates the use of artificial intelligence chatbots for patient-specific question answering (QA) from clinical notes using several large language model (LLM) based systems: ChatGPT (versions 3.5 and 4), Google Bard, and Claude. We evaluate the accuracy, relevance, comprehensiveness, and coherence of the answers generated by each model using a 5-point Likert scale on a set of patient-specific questions.

연구 동기 및 목표

  • 전자 건강 기록(EHR) 정보에 대한 접근성을 높이기 위해 임상 노트에서 환자 특정 질문에 답하기 위한 AI 챗봇 사용을 촉진한다.
  • 챗봇이 생성한 환자 특정 질문에 대한 답변의 정확성, 관련성, 포괄성 및 일관성을 평가한다.
  • 표준화된 평가 프레임워크를 사용하여 프롬프트 시나리오 및 질문 유형 간 성능을 비교한다.

제안 방법

  • 공개 MIMIC-III 부분집합(TREC CDS 2016)의 입원 메모를 원문 메모로 사용한다.
  • 각 메모마다 General, Specific, Nonanswerable의 세 가지 질문 범주를 만들어 각 범주에 5개의 질문을 둔다.
  • 두 가지 세션 시나리오를 테스트한다: 1 Question per Session(1QpS) 및 1 Topic per Session(1TpS).
  • 사람 평가자가 1–5 척도에서 네 가지 기준(Accuracy, Relevance, Coverage, Coherence)을 사용하여 챗봇 응답을 평가한다.
  • 세션 유형, 질문 유형, 모델 간의 통계적 차이를 평가하기 위해 Kruskal-Wallis 검정을 적용한다.

실험 결과

연구 질문

  • RQ1LLM 기반 챗봇이 임상 노트에서 환자 특정 질문에 대해 정확하게 답할 수 있는가?
  • RQ2다양한 세션 설정(1QpS 대 1TpS)이 답변 품질에 어떤 영향을 미치는가?
  • RQ3질문 유형(일반, 구체, 비대답 가능)의 정확성, 관련성, 포괄성 및 일관성에 미치는 영향은 무엇인가?
  • RQ4다른 모델들(ChatGPT 3.5/4, Claude, Bard)이 이 과제에서 차별적인 성능을 보이는가?
  • RQ5평가 지표와 샘플 크기에 걸쳐 결과가 강건한가?

주요 결과

  • ChatGPT 3.5와 Claude는 질문 유형과 시나리오 전반에 걸쳐 정확하고 관련성 높으며 포괄적이고 일관된 답변을 생성했다.
  • Kruskal-Wallis 검정은 세션 시나리오, 질문 유형 또는 AI 모델에 따라 통계적으로 유의한 차이가 있음을 보이지 않았다(p > 0.05).
  • 일반, 구체, 비대답 가능 질문 전반에 걸쳐 1QpS와 1TpS 시나리오 모두에서 평균 정확도, 관련성, 포괄성, 일관성이 일관되게 높았으며(구체 숫자 값은 연구 표에 보고됨).
  • 이 연구는 소규모 데이터셋에 초점을 맞추었고 평가가 단일 평정자에 의해 수행되어 편향의 가능성과 더 넓은 검증의 필요성을 시사한다.
  • 결과는 임상 노트에서의 환자 특이 QA에 대해 LLM이 가능성을 시사하며, 포괄성 및 일관성을 개선하고 더 많은 모델과 더 큰 데이터셋을 평가하기 위한 추가 작업이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.