[논문 리뷰] TimeTox: An LLM-Based Pipeline for Automated Extraction of Time Toxicity from Clinical Trial Protocols
TimeTox는 임상시험 프로토콜의 Schedule of Assessments 표에서 시간 독성(time toxicity)을 자동으로 추출하는 엔드-투-엔드 LLM 기반 파이프라인을 개발하고, vanilla 및 two-stage 아키텍처를 비교하며 644건의 실제 임상종양학 프로토콜에서 검증한다.
Time toxicity, the cumulative healthcare contact days from clinical trial participation, is an important but labor-intensive metric to extract from protocol documents. We developed TimeTox, an LLM-based pipeline for automated extraction of time toxicity from Schedule of Assessments tables. TimeTox uses Google's Gemini models in three stages: summary extraction from full-length protocol PDFs, time toxicity quantification at six cumulative timepoints for each treatment arm, and multi-run consensus via position-based arm matching. We validated against 20 synthetic schedules (240 comparisons) and assessed reproducibility on 644 real-world oncology protocols. Two architectures were compared: single-pass (vanilla) and two-stage (structure-then-count). The two-stage pipeline achieved 100% clinically acceptable accuracy ($\pm$3 days) on synthetic data (MAE 0.81 days) versus 41.5% for vanilla (MAE 9.0 days). However, on real-world protocols, the vanilla pipeline showed superior reproducibility: 95.3% clinically acceptable accuracy (IQR $\leq$ 3 days) across 3 runs on 644 protocols, with 82.0% perfect stability (IQR = 0). The production pipeline extracted time toxicity for 1,288 treatment arms across multiple disease sites. Extraction stability on real-world data, rather than accuracy on synthetic benchmarks, is the decisive factor for production LLM deployment.
연구 동기 및 목표
- 프로토콜 문서에서 환자의 시간 부담(time toxicity)을 정량화할 필요성을 제시한다.
- SoA 표에서 시간 독성을 추출하고 계산하기 위해 Gemini 모델을 사용한 엔드-투-엔드 파이프라인을 개발한다.
- 단일 패스(vanilla) 대 두 단계(구조-그다음 카운트) 추출 아키텍처를 비교한다.
- 다중 실행 합의 및 실제 프로토콜 배치를 통한 생산 가능성을 평가한다.
제안 방법
- 전체 프로토콜 PDF의 요약 추출을 위해 Google Gemini 모델을 사용한다.
- 두 가지 추출 아키텍처를 구현한다: vanilla 단일 패스와 두 단계 구조-다음 카운트.
- 실행 간 arm-name의 불안정성을 완화하기 위해 위치 기반 다중 실행 합의를 적용한다.
- 참값(time toxicity) 값을 갖는 20개의 합성 일정으로 학습 및 검증한다.
- 생산 가능성을 입증하기 위해 644건의 실제 임상종양학 프로토콜을 처리한다.
- 오픈소스 코드와 합성 참값 생성기를 제공한다.

실험 결과
연구 질문
- RQ1LLM 기반 파이프라인이 Schedule of Assessments 표에서 시간 독성을 정확히 정량화할 수 있는가?
- RQ2합성 데이터 대비 실제 데이터에서 어느 아키텍처(vanilla vs 두-stage)가 더 높은 정확도와 안정성을 제공하는가?
- RQ3다중 실행 합의가 시간 독성 추출의 실행 간 변동성에 대해 강건성을 향상시키는가?
- RQ4프로덕션 규모의 추출이 시간, 비용, 프로토콜 간 재현성 측면에서 타당한가?
주요 결과
- 두 단계 추출은 합성 데이터에서 높은 정확성을 보이지만 실제 데이터에서 안정성은 미흡하다(240건의 합성 비교에서 MAE 0.81일; Exact Match 0.3%; Clinically Acceptable 100%).
- Vanilla 추출은 합성 데이터에서 다소 낮은 정확성을 보이나 실제 데이터에서 강한 안정성을 보인다(MAE는 여기에서 명시되지 않음; Clinically Acceptable 95.3% across 644 protocols; Perfect Stability 82.0%).
- 생산 배포는 644 프로토콜에서 3-런 합의를 사용한 vanilla를 사용해 1,288 arm의 시간 독성 데이터를 생성했다.
- 처리 시간: 합성 요약 2–3분/프로토콜; vanilla 추출 약 4분/프로토콜; 총 644 프로토콜에 대해 약 128시간.
- 오픈소스 코드와 ground-truth 생성기는 TimeTox GitHub 저장소에서 이용 가능하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.