QUICK REVIEW

[论文解读] TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets

Jintai Chen, Yaojun Hu|arXiv (Cornell University)|Jun 30, 2024

Radiomics and Machine Learning in Medical Imaging被引用 5

一句话总结

TrialBench 提供一套包含 23 个 AI-ready 的多模态临床试验数据集，覆盖 8 个预测/设计任务，附带基线模型和用于 AI 辅助试验设计的评估协议。

ABSTRACT

Clinical trials are pivotal for developing new medical treatments but typically carry risks such as patient mortality and enrollment failure that waste immense efforts spanning over a decade. Applying artificial intelligence (AI) to predict key events in clinical trials holds great potential for providing insights to guide trial designs. However, complex data collection and question definition requiring medical expertise have hindered the involvement of AI thus far. This paper tackles these challenges by presenting a comprehensive suite of 23 meticulously curated AI-ready datasets covering multi-modal input features and 8 crucial prediction challenges in clinical trial design, encompassing prediction of trial duration, patient dropout rate, serious adverse event, mortality rate, trial approval outcome, trial failure reason, drug dose finding, design of eligibility criteria. Furthermore, we provide basic validation methods for each task to ensure the datasets' usability and reliability. We anticipate that the availability of such open-access datasets will catalyze the development of advanced AI approaches for clinical trial design, ultimately advancing clinical trial research and accelerating medical solution development.

研究动机与目标

识别适合 AI 干预的 8 个关键临床试验设计挑战。
从 ClinicalTrials.gov 及相关来源整理出用于这些任务的 23 个 AI-ready 的多模态数据集。
提供评估指标和基线模型，以便对这些任务进行快速 AI 基准测试。
展示一个可推广的多模态 AI 框架，用于处理药物、疾病、文本和人口统计特征。

提出的方法

从 ClinicalTrials.gov、DrugBank、TrialTrove 和 ICD-10 中整理出 AI-ready 数据集，将药物与 SMILES 及疾病与 ICD-10/CCS 编码关联起来。
为 8 个预测/设计任务定义正式的输入/输出规范和多模态特征集（药物 SMILES、ICD-10、文本、类别/数值、MeSH）。
使用模态专用组件构建多模态基线模型（分子使用 MPNNs，文本使用 Bio-BERT，MeSH 嵌入，基于图的注意力模型，以及 DANet 块）。
提供评估指标和时间感知（时序）的数据划分，以评估对未见的未来试验的泛化能力。
使用 TrialTrove 等来源标注标签，并在需要时，使用基于 GPT 的标注来完成如剂量发现和失败原因分类等任务。

实验结果

研究问题

RQ1利用多模态试验数据，AI 在预测试验时长、退出率、SAEs、死亡率以及批准结果方面的表现如何？
RQ2AI 是否能够从非结构化文本和结构化特征中有效识别并分类试验失败原因以及设计入选标准？
RQ3与单模态基线相比，多模态表示（药物、疾病、文本、MeSH）在临床试验设计的预测/生成任务中提升程度如何？
RQ4基于时间的数据划分如何影响模型对未来试验的泛化？
RQ5推进临床试验设计的 AI 所需的实际基线与评估协议有哪些？

主要发现

TrialBench 平台提供 23 套 AI-ready 数据集用于 8 个定义任务。
数据集整合多达五种模态：药物 SMILES、ICD-10 疾病编码、文本（如入选标准）、类别/数值特征，以及 MeSH 术语。
采用时间性划分（训练/验证 8:2，对后续试验进行测试）以模拟对未见试验的真实世界泛化。
基线模型结合模态特定架构：分子 MPNN、文本 Bio-BERT、MeSH 嵌入、GRAM，以及 DANet 块。
表 2 报告跨任务的数据集统计信息，包括试验、药物和疾病的计数（例如试验时长预测 ~141k 数据点；其他 ~62k–43k）。
作者在所链接的 GitHub 位置提供了包含数据集、指标和基线模型的公开仓库。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。