[論文レビュー] Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents
本論文はAgent Hospitalを提示する。LLMを活用した病院の模擬体で、自律的なレジデントおよび医療専門エージェントがMedAgent-Zeroを通じて病気の発生と治療をシミュレーションすることで進化し、ラベル付きデータなしでシミュレーション課題と実世界のMedicareベンチマークで高い性能を達成する。
The recent rapid development of large language models (LLMs) has sparked a new wave of technological revolution in medical artificial intelligence (AI). While LLMs are designed to understand and generate text like a human, autonomous agents that utilize LLMs as their "brain" have exhibited capabilities beyond text processing such as planning, reflection, and using tools by enabling their "bodies" to interact with the environment. We introduce a simulacrum of hospital called Agent Hospital that simulates the entire process of treating illness, in which all patients, nurses, and doctors are LLM-powered autonomous agents. Within the simulacrum, doctor agents are able to evolve by treating a large number of patient agents without the need to label training data manually. After treating tens of thousands of patient agents in the simulacrum (human doctors may take several years in the real world), the evolved doctor agents outperform state-of-the-art medical agent methods on the MedQA benchmark comprising US Medical Licensing Examination (USMLE) test questions. Our methods of simulacrum construction and agent evolution have the potential in benefiting a broad range of applications beyond medical AI.
研究の動機と目的
- 自律的なLLMエージェントによって推進される病院プロセスのスケーラブルな模擬体を示す。
- シミュレーション内の自己教師付き相互作用を通じて医師エージェントが進化できるようにする。
- Agent Hospital で得られた知識が実世界のMedicareベンチマークに転用されることを示す。
- MedAgent-Zero を医療記録と経験を活用するデータ不要の進化戦略として提案する。
提案手法
- LLMs(GPT-3.5)で動作するレジデントおよび医療専門エージェントを備えた病院のサンドボックスと、複数エリアの病院レイアウトを作成する。
- 医師エージェントを評価するために、3つの医療タスク(診察の判断、診断、治療計画)を定義する。
- 手作業でラベル付けされたデータなしで自己進化を可能にするMedical Record LibraryとExperience Baseを備えたMedAgent-Zeroを開発する。
- 高密度検索を用いて関連する記録と原則を取得し、シミュレーション内推論を補足する。
- 学習用の模擬医療データセット(約10k件の記録)と、評価用の小規模テストセット(500件)を生成する。
- 模擬患者との相互作用で医師エージェントを評価し、MedQA実世界データセットの一部でも評価する。
実験結果
リサーチクエスチョン
- RQ1ラベル付きデータなしで、進化可能な医療エージェントを備えた病院の模擬体は時間とともに治療性能を向上させられるか。
- RQ2Agent Hospitalで訓練された医師エージェントは学習した能力を実世界のMedicare関連ベンチマークへ転移させられるか。
- RQ3医療記録と経験を介して自己進化を可能にするMedAgent-Zeroの有効性はどれくらいか。
主な発見
- シミュレーション内で、医師エージェントは診察の正確さ88%、診断は95.6%、治療は77.6%の精度を達成。
- MedAgent-Zeroは数万件規模の模擬ケースを数日で可能にする一方、実在の医師には年単位が必要だった。
- 進化した医師エージェントはMedQA実世界データセットの一部で最先端の精度(93.06%)を manual labelingなしで達成。
- Agent Hospital は、シミュレーションベースの進化がタスク性能を向上させ、実世界のベンチマークへ転移できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。