[論文レビュー] TimeTox: An LLM-Based Pipeline for Automated Extraction of Time Toxicity from Clinical Trial Protocols
TimeTox は Schedule of Assessments 表から時間毒性を自動抽出する LLM ベースのエンドツーエンドパイプラインを開発し、 vanilla と two-stage アーキテクチャを比較、644 件の実世界の腫瘍学プロトコルで検証する。
Time toxicity, the cumulative healthcare contact days from clinical trial participation, is an important but labor-intensive metric to extract from protocol documents. We developed TimeTox, an LLM-based pipeline for automated extraction of time toxicity from Schedule of Assessments tables. TimeTox uses Google's Gemini models in three stages: summary extraction from full-length protocol PDFs, time toxicity quantification at six cumulative timepoints for each treatment arm, and multi-run consensus via position-based arm matching. We validated against 20 synthetic schedules (240 comparisons) and assessed reproducibility on 644 real-world oncology protocols. Two architectures were compared: single-pass (vanilla) and two-stage (structure-then-count). The two-stage pipeline achieved 100% clinically acceptable accuracy ($\pm$3 days) on synthetic data (MAE 0.81 days) versus 41.5% for vanilla (MAE 9.0 days). However, on real-world protocols, the vanilla pipeline showed superior reproducibility: 95.3% clinically acceptable accuracy (IQR $\leq$ 3 days) across 3 runs on 644 protocols, with 82.0% perfect stability (IQR = 0). The production pipeline extracted time toxicity for 1,288 treatment arms across multiple disease sites. Extraction stability on real-world data, rather than accuracy on synthetic benchmarks, is the decisive factor for production LLM deployment.
研究の動機と目的
- プロトコル文書から患者の時間的負担(time toxicity)を定量化する必要性を動機づける。
- Gemini モデルを用いて SoA 表から時間毒性を抽出・計算するエンドツーエンドのパイプラインを開発する。
- 単一パス(vanilla)対 2 段階(構造 → カウント)抽出アーキテクチャを比較する。
- 複数回のコンセンサスと実世界プロトコル展開を通じて生産性の妥当性を評価する。
提案手法
- 全プロトコル PDF の要約抽出に Google Gemini モデルを使用する。
- 2 種類の抽出アーキテクチャを実装する:vanilla 単一パスと two-stage 構造 → カウント。
- ランごとに個別名の不安定性を緩和するため位置ベースの多回収束を適用する。
- グラウンドトゥルース時間毒性値を持つ 20 の合成スケジュールで訓練・検証する。
- 644 件の実世界の腫瘍学プロトコルを処理して生産性の実現可能性を示す。
- オープンソースのコードと合成グラウンドトゥルースジェネレータを提供する。

実験結果
リサーチクエスチョン
- RQ1LLM ベースのパイプラインは Schedule of Assessments 表から時間毒性を正確に定量化できるか。
- RQ2どのアーキテクチャ(vanilla vs two-stage)が合成データと実世界データの精度と安定性を向上させるか。
- RQ3多回帰 consensu が時間毒性抽出の実行間変動性に対してロバスト性を向上させるか。
- RQ4生産規模での抽出は時間・コスト・再現性の面でプロトコル間で実現可能か。
主な発見
- two-stage 抽出は高い合成精度を示すが実世界の安定性は低い(MAE 0.81 日; Exact Match 0.3%; Clinically Acceptable 100%)240 件の合成比較で。
- vanilla 抽出は合成では控えめな精度だが実世界で高い安定性を示す(MAE はここに記載なし;Clinically Acceptable 644 プロトコルで 95.3%;Perfect Stability 82.0%)。
- 生産展開は vanilla を用い 3 回のコンセンサスで 644 プロトコルを処理し、1,288 アーム分の時間毒性データを生成。
- 処理時間:合成要約 1 プロトコルあたり 2–3 分;vanilla 抽出は約 4 分/プロトコル;644 プロトコルで総計約 128 時間。
- オープンソースのコードとグラウンドトゥルースジェネレータは TimeTox GitHub リポジトリで入手可能。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。