Skip to main content
QUICK REVIEW

[論文レビュー] Leveraging Large Language Model as Simulated Patients for Clinical Education

Yaneng Li, Cheng Zeng|arXiv (Cornell University)|Apr 13, 2024
Topic Modeling被引用数 14
ひとこと要約

CureFunは、LLMsをグラフ主導のメモリと自動評価を備えた仮想シミュレート患者として用いるモデル非依存のフレームワークであり、臨床教育における仮想医師としてのLLMsの評価も行う。

ABSTRACT

Simulated Patients (SPs) play a crucial role in clinical medical education by providing realistic scenarios for student practice. However, the high cost of training and hiring qualified SPs, along with the heavy workload and potential risks they face in consistently portraying actual patients, limit students' access to this type of clinical training. Consequently, the integration of computer program-based simulated patients has emerged as a valuable educational tool in recent years. With the rapid development of Large Language Models (LLMs), their exceptional capabilities in conversational artificial intelligence and role-playing have been demonstrated, making them a feasible option for implementing Virtual Simulated Patient (VSP). In this paper, we present an integrated model-agnostic framework called CureFun that harnesses the potential of LLMs in clinical medical education. This framework facilitates natural conversations between students and simulated patients, evaluates their dialogue, and provides suggestions to enhance students' clinical inquiry skills. Through comprehensive evaluations, our approach demonstrates more authentic and professional SP-scenario dialogue flows compared to other LLM-based chatbots, thus proving its proficiency in simulating patients. Additionally, leveraging CureFun's evaluation ability, we assess several medical LLMs and discuss the possibilities and limitations of using LLMs as virtual doctors from the perspective of their diagnostic abilities.

研究の動機と目的

  • 臨床教育における従来の模擬患者の高コストとリスクに対処する。
  • 本物の対話フローを実現するためにLLMsを活用したモデル非依存のVSPフレームワークを開発する。
  • 学生と患者の対話の自動評価を実現し、評価をスケール可能にする。
  • 複数のLLMを評価し、診断的観点から仮想医師としての可能性を検討する。)

提案手法

  • SPスクリプトからNERと関係抽出を用いてケースグラフを構築し、retrieval-augmented generation (RAG)のバックボーンを形成する。
  • 対話フローを制御するため、グラフ駆動の文脈適応型SPチャットボット(ERRG: Extract–Retrieve–Rewrite–Generate)を実装する。
  • SPチェックリストを複数のLLMにまたがるアンサンブル投票を用いたLLM実行可能な自動評価プログラムに変換する。
  • 事前定義された診断シナリオを実行し、非スコア指標(情報密度、情動傾向など)を分析することにより、仮想医師としてのLLMを評価する。
  • 現実感とスケーラビリティを高めるために、補助モジュール(TTS/STT、RDF/SPARQLを用いたグラフデータベース、専用LLMサーバ)を展開する。)

実験結果

リサーチクエスチョン

  • RQ1臨床教育において、LLMsをどのように活用して本物の対話フローを備えた患者役をシミュレートできるか?
  • RQ2グラフ拡張型で指示チューニングされたフレームワークは、SP対話の品質と評価の信頼性を向上させるか?
  • RQ3SP試験における自動化されたLLMベースの評価は、人間の評価者とどの程度一致するか?
  • RQ4診断面接において仮想医師として機能する各LLMの相対的能力はどうか?
  • RQ5大規模な医療教育におけるVSPおよびVDとしてのLLM活用の長所と限界は何か?

主な発見

ModelB-ELOw/o Ourswith Ours
Mixtral-8x7B1462.401510.60 (+48.20)
Qwen72B1523.931575.20 (+51.27)
PaLM1570.911639.07 (+68.16)
GPT-3.5-Turbo1403.541653.72 (+250.18)
ERNIE-Bot 41780.881880.15 (+99.27)
  • CureFunフレームワークは、SPシナリオにおいて他のLLMベースのチャットボットよりも、より本物で専門的なSP対話を生み出す。
  • 自動評価スコアは人間の評価者と強く相関する(平均Spearman 0.81、Pearson 0.85、p<0.05)。
  • 自動スコアリングプログラムと複数のLLMをアンサンブルすることで、信頼性の高い学生評価が得られ、大規模なコホートへと適用可能である。
  • ERNIe-Bot-4はフレームワークと組み合わせて、テストされたバックボーンの中で最も良いSPパフォーマンスを達成した;GPT-3.5-Turboはフレームワーク使用時に顕著な改善(+250.18 B-ELO)を示した。
  • 仮想医師としてLLMを評価する際、ChatGPTがLLMの中で最高の総合スコアを達成し、DISC-MedLLMが2位だった。人間の評価者(専門家)は診断能力で全LLMを上回った。
  • このフレームワークは、SPとVDが実践で異なることを示し、医療教育のための統合的なSP–VDトレーニングパイプラインの必要性を浮き彫りにする。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。