[論文レビュー] AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator
AI Hospital は、医療診断のリアルタイムで対話型の環境を提供し、マルチエージェントの LLM 推進の内科医学生、患者、試験官、医療ディレクター、さらに Multi-View Medical Evaluation ベンチマークと意見対立解決の協力メカニズムを組み合わせて診断精度を向上させます。
Artificial intelligence has significantly advanced healthcare, particularly through large language models (LLMs) that excel in medical question answering benchmarks. However, their real-world clinical application remains limited due to the complexities of doctor-patient interactions. To address this, we introduce extbf{AI Hospital}, a multi-agent framework simulating dynamic medical interactions between \emph{Doctor} as player and NPCs including \emph{Patient}, \emph{Examiner}, \emph{Chief Physician}. This setup allows for realistic assessments of LLMs in clinical scenarios. We develop the Multi-View Medical Evaluation (MVME) benchmark, utilizing high-quality Chinese medical records and NPCs to evaluate LLMs' performance in symptom collection, examination recommendations, and diagnoses. Additionally, a dispute resolution collaborative mechanism is proposed to enhance diagnostic accuracy through iterative discussions. Despite improvements, current LLMs exhibit significant performance gaps in multi-turn interactions compared to one-step approaches. Our findings highlight the need for further research to bridge these gaps and improve LLMs' clinical diagnostic capabilities. Our data, code, and experimental results are all open-sourced at \url{https://github.com/LibertFan/AI_Hospital}.
研究の動機と目的
- LLM をリアルタイムの臨床診断に統合する動機づけを、対話型のマルチエージェントシミュレーションを通じて示す。
- 患者、検査官、内科医の研修医、医療ディレクターの役割を備えた現実世界に近い環境を提供し、LLMs を評価する。
- 対話型設定で症状識別、検査の包括性、診断品質を評価する MVME ベンチマークを導入する。
- 医療ディレクターが監督する紛争解決協力メカニズムを実証し、診断精度を向上させる。
提案手法
- 高品質の中国医療記録を用いて、内科医学生、患者、検査官、医療ディレクターの4つの役割を備えた AI Hospital を構築する。
- 3エージェントの相互作用ワークフローを定義:患者が症状を説明し、研修医が質問を行い、検査官が検査を実施し、ディレクターが評価を監督する。
- 症状マスター、検査の包括性、診断報告の品質を評価する MVME ベンチマークを作成する。
- 複数の研修医が医療ディレクターの指導の下で反復的に議論して結論を得る紛争解決協力を実装する。
- 評価エンジンとして GPT-4 を使用し、リンク付き ICD-10 用語マッピングを診断結果の評価の根拠付けに用いる。
- 一歩の診断(非対話)と、複数のLLMによる対話的協力設定を比較し、相互作用の影響と協力による利益を定量化する。
実験結果
リサーチクエスチョン
- RQ1LLM は現実の相談を模したマルチエージェント環境でリアルタイムかつ対話型の臨床診断を実施できるか。
- RQ2医療ディレクターが指導する紛争解決協力は、非協力的アプローチより診断精度を向上させるか。
- RQ3AI Hospital における症状収集、検査選択、診断報告の性能は異なる LLM によってどう異なるか。
- RQ4協力診断で研修医を追加することは診断パフォーマンスにどのような影響を与えるか。
主な発見
- 対話型の協力は、単一モデルのワンショットベースより診断精度を改善する。
- 3名の研修医と協力することで、2名の研修医より高い診断指標を示し、チームワークの利点を強調する。
- 医療ディレクターが主導する紛争解決はコンセンサスの速度を上げ、評価結果を改善する。
- GPT-4 を基にした一歩の診断は上限を設定する一方、複数モデルの対話的協力は一部の指標で GPT-4 のみより上回ることがある。
- 人間による評価は、複数のモデルにおける患者-検査官の相互作用で高い信頼性(98%超)を示し、対話型設定の頑健性を示す。
- 紛争解決メカニズムは結論に至るまでのラウンド数を減らす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。