[论文解读] Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology
本文提出一个自治 AI 代理框架,使用大型语言模型(GPT-4)作为推理引擎,编排用于多模态肿瘤学决策支持的专业化临床工具,在复杂的消化道癌症案例中进行专家聚焦评估并得到验证。
Multimodal artificial intelligence (AI) systems have the potential to enhance clinical decision-making by interpreting various types of medical data. However, the effectiveness of these models across all medical fields is uncertain. Each discipline presents unique challenges that need to be addressed for optimal performance. This complexity is further increased when attempting to integrate different fields into a single model. Here, we introduce an alternative approach to multimodal medical AI that utilizes the generalist capabilities of a large language model (LLM) as a central reasoning engine. This engine autonomously coordinates and deploys a set of specialized medical AI tools. These tools include text, radiology and histopathology image interpretation, genomic data processing, web searches, and document retrieval from medical guidelines. We validate our system across a series of clinical oncology scenarios that closely resemble typical patient care workflows. We show that the system has a high capability in employing appropriate tools (97%), drawing correct conclusions (93.6%), and providing complete (94%), and helpful (89.2%) recommendations for individual patient cases while consistently referencing relevant literature (82.5%) upon instruction. This work provides evidence that LLMs can effectively plan and execute domain-specific models to retrieve or synthesize new information when used as autonomous agents. This enables them to function as specialist, patient-tailored clinical assistants. It also simplifies regulatory compliance by allowing each component tool to be individually validated and approved. We believe, that our work can serve as a proof-of-concept for more advanced LLM-agents in the medical domain.
研究动机与目标
- 强调肿瘤学领域中多模态 AI 的必要性和面向专业化的需求,并解决通用模型的局限性。
- 提出一个模块化 AI 代理框架,利用 LLM 作为推理引擎来编排专业工具。
- 以精心 curated 的肿瘤学知识库和严格的文献检索文档化为代理提供依据。
- 在现实的多模态 GI 肿瘤案例中对代理进行评估,并进行专家人工评审。
- 展示模块化、面向工具的验证相较于单一模型在合规性与维护方面的优势。
提出的方法
- 构建以 GPT-4 为推理核心的自治 AI 代理。
- 整合专业化工具:放射学视觉(GPT-4V)、病理学基因/突变预测、OncoKB、网络检索、计算器,以及医学影像分割(MedSAM)。
- 使用嵌入与余弦相似性检索,从约 6,800 份肿瘤学文献构建 Retrieval-Augmented Generation (RAG) 知识库。
- 生成多步计划和子查询;检索相关段落;为每一个断言引用来源。
- 通过对 11 个合成案例的盲评专家评审,评估工具使用、答案完整性、事实准确性、帮助性和引用的一致性。
- 承认的局限包括单切片放射学、GPT-4V 的限制、无后续提问以及肿瘤学聚焦;提出模块化的未来扩展方案。
实验结果
研究问题
- RQ1基于 LLM 的代理是否能够自主规划并执行一系列专业化医疗工具以支持肿瘤决策?
- RQ2工具驱动的推理是否能够提升在多模态肿瘤情景中的临床建议的准确性、完整性和证据基础?
- RQ3检索增强生成与模块化工具在将模型输出与最新指南与文献对齐方面的表现如何?
- RQ4与单一的通用模型相比,模块化、面向工具的架构在合规性与维护方面有哪些优势?
主要发现
- 代理在各案例中持续调用工具,平均每位患者三次工具使用,报告了一次失败和一次遗漏。
- 在包含 TCGA 数据的七个案例中,基于病理学的突变与 MSI 状态预测取得高准确率。
- GPT-4V 在临床决策中引导 toward 准确的疾病轨迹评估,尽管偶有遗漏或额外信息。
- 在医学专家评估的67 条关键陈述中,模型的完整性达到 94%。
- 模型断言的整体事实准确性为 93.6%,其中 4.3% 为不正确,2.1% 可能有害。
- 引用与来源的对齐占参考文献的 82.5%,与之相关性低的占 15.2%,冲突占 2.3%;幻觉现象有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。