[論文レビュー] TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets
tldr: TrialBench は、AI支援の治験設計のためのベースラインモデルと評価プロトコルを備えた、8つの予測/設計タスクにわたる23のAI対応・マルチモーダル治験データセットのスイートを提供します。
Clinical trials are pivotal for developing new medical treatments but typically carry risks such as patient mortality and enrollment failure that waste immense efforts spanning over a decade. Applying artificial intelligence (AI) to predict key events in clinical trials holds great potential for providing insights to guide trial designs. However, complex data collection and question definition requiring medical expertise have hindered the involvement of AI thus far. This paper tackles these challenges by presenting a comprehensive suite of 23 meticulously curated AI-ready datasets covering multi-modal input features and 8 crucial prediction challenges in clinical trial design, encompassing prediction of trial duration, patient dropout rate, serious adverse event, mortality rate, trial approval outcome, trial failure reason, drug dose finding, design of eligibility criteria. Furthermore, we provide basic validation methods for each task to ensure the datasets' usability and reliability. We anticipate that the availability of such open-access datasets will catalyze the development of advanced AI approaches for clinical trial design, ultimately advancing clinical trial research and accelerating medical solution development.
研究の動機と目的
- AI介入に適する8つの重要な治験設計課題を特定する。
- これらのタスクのためにClinicalTrials.govおよび関連ソースから23のAI対応・マルチモーダルデータセットをキュレーションする。
- これらのタスクに対して迅速なAIベンチマーキングを可能にする評価指標とベースラインモデルを提供する。
- 薬物、疾患、テキスト、人口統計的特徴を処理する一般化可能なマルチモーダルAIフレームワークを示す。
提案手法
- ClinicalTrials.gov、DrugBank、TrialTrove、 ICD-10 からAI対応データセットをキュレーションし、薬物を SMILES に、疾患を ICD-10/CCS コードにリンクさせる。
- 8つの予測/設計タスクを、形式的な入力/出力仕様とマルチモーダル特徴セット(薬物 SMILES、ICD-10、テキスト、カテゴリ/数値、MeSH)で定義する。
- 分子にはモルディリティ別コンポーネント(分子用の MPNN、テキスト用の Bio-BERT、MeSH 埋め込み、グラフベースのアテンションモデル、DANet ブロック)を用いたマルチモーダルベースラインモデルを構築する。
- 未知で将来の治験に一般化することを評価するため、評価指標と時系列データ分割を提供する。
- Dose finding や failure reason classification などのタスクに対して、TrialTrove の情報源と必要に応じてGPTベースのラベリングを用いてラベルを注釈付けする。
実験結果
リサーチクエスチョン
- RQ1AI は多モーダル治験データを用いて治験期間、脱落率、SAEs、死亡率、承認結果をどれくらい正確に予測できるか?
- RQ2AI は非構造化テキストと構造化特徴から治験の失敗理由を識別・分類し、設計適格基準を効果的に抽出できるか?
- RQ3多モーダル表現(薬物、疾患、テキスト、MeSH)が、臨床試験設計の予測/生成タスクの精度を、単一モーダルのベースラインと比較してどの程度改善するか?
- RQ4時系列データの分割は、将来の治験へのモデルの一般化にどのような影響を与えるか?
- RQ5AIを治験設計に進化させるために必要な実用的なベースラインと評価プロトコルは何か?
主な発見
- TrialBench プラットフォームは、8つの定義されたタスクに対して23のAI対応データセットを提供する。
- データセットは最大5つのモダリティを統合する:薬物 SMILES、 ICD-10 疾患コード、テキスト(適格基準など)、カテゴリ/数値特徴、MeSH 用語。
- 将来の治験に対する未知データへの一般化をシミュレートするため、時系列分割(訓練/検証8:2 テストは後年の治験を対象)が用いられている。
- ベースラインモデルはモダリティ特化のアーキテクチャを組み合わせる:分子には MPNN、テキストには Bio-BERT、MeSH 埋め込み、GRAM、DANet ブロック。
- Table 2 は、治験数、薬物数、疾病数を含むタスク別データセット統計を報告しており(例:治験期間予測は約141kデータポイント、他は約62k~43k)。
- 著者らは、公開リポジトリとしてデータセット、指標、およびベースラインモデルをリンク付きの GitHub 場所で提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。