[论文解读] Evaluation of Oncotimia: An LLM based system for supporting tumour boards
ONCOTIMIA 是一个模块化的基于LLM的工具,通过检索增强生成和混合数据存储实现肺癌 MDTB 表单的自动填充,在六个LLM及合成案例中进行评估。
Multidisciplinary tumour boards (MDTBs) play a central role in oncology decision-making but require manual processes and structuring large volumes of heterogeneous clinical information, resulting in a substantial documentation burden. In this work, we present ONCOTIMIA, a modular and secure clinical tool designed to integrate generative artificial intelligence (GenAI) into oncology workflows and evaluate its application to the automatic completion of lung cancer tumour board forms using large language models (LLMs). The system combines a multi-layer data lake, hybrid relational and vector storage, retrieval-augmented generation (RAG) and a rule-driven adaptive form model to transform unstructured clinical documentation into structured and standardised tumour board records. We assess the performance of six LLMs deployed through AWS Bedrock on ten lung cancer cases, measuring both completion form accuracy and end-to-end latency. The results demonstrate high performance across models, with the best performing configuration achieving an 80% of correct field completion and clinically acceptable response time for most LLMs. Larger and more recent models exhibit best accuracies without incurring prohibitive latency. These findings provide empirical evidence that LLM- assisted autocompletion form is technically feasible and operationally viable in multidisciplinary lung cancer workflows and support its potential to significantly reduce documentation burden while preserving data quality.
研究动机与目标
- 在多学科肿瘤委员会中通过自动化结构化表单完成来降低手动文档编制负担。
- 展示 GenAI 辅助自动完成在肿瘤学工作流程中的可行性与运营可行性。
- 在受控的合成肺癌数据集中评估多种 LLM 在字段完成准确性和端到端时延方面的表现。
提出的方法
- 设计一个模块化、 sécur 警示 的 ONCOTIMIA 平台,包含数据摄取、存储、后端服务、LLM 抽象层和反向代理。
- 实现一个三层数据湖(落地层、 staging 层、 refined 层),并结合关系型与向量存储(PostgreSQL 与 Qdrant)。
- 使用带 Nomic 向量嵌入的检索增强生成(RAG)管道,为表单完成获取上下文来源。
- 应用一个规则驱动的自适应肺癌表单架构,包含七个模块及条件激活以引导数据收集。
- 在受控的合成环境中通过 AWS Bedrock 评估六个 LLM,衡量字段级准确性和端到端时延。
实验结果
研究问题
- RQ1 LLM 是否能够从非结构化叙述中可靠地自动完成标准化的肺癌 MDTB 表单?
- RQ2不 同 LLM 架构与规模在带 RAG 的临床工具中对字段完成准确性和时延有何影响?
- RQ3ONCOTIMIA 在数据治理约束下在肿瘤学工作流程中的可行性和稳定性如何?
主要发现
- 最佳模型(Pixtral-large-2502-v1;以及 GPT-OSS-120b、Qwen3-32b、Qwen3-120b)在平均字段完成准确率上达到最高,约 79.3%~80% 的区间。
- GPT-OSS-20b 显示最低的平均准确率(72.1%)和最高的延迟(平均 54 秒)。
- 大多数模型的端到端时延约为 20–21 秒,GPT-OSS-20b 在时延方面为异常值。
- 更大且更新的模型在不牺牲时延的前提下提供了更好的准确性,显示出在临床使用中的可行性。
- 系统使用一个带三层摄取管线的合成西班牙语肺癌数据集,以及一个混合存储层,支持基于 RAG 的推理。
- 结果显示大多数模型具有高且稳定的性能,支持降低文档负担的运营可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。