[논문 리뷰] TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets
TrialBench는 8가지 예측/설계 작업에 걸친 23개의 AI-준비된 멀티모달 임상시험 데이터셋을 제공하며, AI 보조 시험 설계를 위한 벤치마크 모델 및 평가 프로토콜을 제시합니다.
Clinical trials are pivotal for developing new medical treatments but typically carry risks such as patient mortality and enrollment failure that waste immense efforts spanning over a decade. Applying artificial intelligence (AI) to predict key events in clinical trials holds great potential for providing insights to guide trial designs. However, complex data collection and question definition requiring medical expertise have hindered the involvement of AI thus far. This paper tackles these challenges by presenting a comprehensive suite of 23 meticulously curated AI-ready datasets covering multi-modal input features and 8 crucial prediction challenges in clinical trial design, encompassing prediction of trial duration, patient dropout rate, serious adverse event, mortality rate, trial approval outcome, trial failure reason, drug dose finding, design of eligibility criteria. Furthermore, we provide basic validation methods for each task to ensure the datasets' usability and reliability. We anticipate that the availability of such open-access datasets will catalyze the development of advanced AI approaches for clinical trial design, ultimately advancing clinical trial research and accelerating medical solution development.
연구 동기 및 목표
- AI 개입에 적합한 8가지 중요한 임상시험 설계 과제를 식별합니다.
- 이 작업들에 대한 ClinicalTrials.gov 및 관련 소스에서 23개의 AI-준비된 멀티모달 데이터셋을 선별합니다.
- 이 작업들에 대해 빠른 AI 벤치마킹을 가능하게 하는 평가 지표와 벤치마크 모델을 제공합니다.
- 약물, 질병, 텍스트 및 인구통계 특성을 처리하는 일반화 가능한 멀티모달 AI 프레임워크를 시연합니다.
제안 방법
- ClinicalTrials.gov, DrugBank, TrialTrove 및 ICD-10에서 약물 SMILES 및 질병을 ICD-10/CCS 코드에 연결하는 AI-준비 데이터셋을 선별합니다.
- 공식 입력/출력 명세와 다중 모달 피처 세트(약물 SMILES, ICD-10, 텍스트, 범주형/수치형, MeSH)를 갖춘 8가지 예측/설계 과정을 정의합니다.
- 분야별 구성요소(MPNN: 분자, Bio-BERT: 텍스트, MeSH 임베딩, Graph-based Attention Model, DANet 블록)를 활용한 멀티모달 벤치마크 모델을 구성합니다.
- 보지 못한 미래의 시험에 대한 일반화를 평가하기 위해 시계열(Time-aware) 데이터 분할을 포함한 평가 지표를 제공합니다.
- Dose finding 및 failure reason classification과 같은 작업에서 필요시 GPT 기반 라벨링을 포함한 TrialTrove 등의 소스를 사용해 라벨을 주석 처리합니다.
실험 결과
연구 질문
- RQ1AI가 멀티모달 임상시험 데이터를 이용해 임상시험 기간, 중단율, SAEs, 사망률 및 승인 결과를 얼마나 잘 예측할 수 있는가?
- RQ2비정형 텍스트와 구조화된 피처로부터 시험 실패 이유를 효과적으로 식별·분류하고 설계 적격 기준을 도출할 수 있는가?
- RQ3멀티모달 표현(약물, 질병, 텍스트, MeSH)이 단일 모달 베이스라인에 비해 임상시험 설계의 예측/생성 작업을 얼마나 개선하는가?
- RQ4시간 기반 데이터 분할이 향후 시험에 대한 모델 일반화에 어떤 영향을 미치는가?
- RQ5임상시험 설계에 AI를 발전시키기 위해 필요한 실용적 벤치마크 및 평가 프로토콜은 무엇인가?
주요 결과
- TrialBench 플랫폼은 8가지 정의된 작업에 대해 23개의 AI-준비 데이터셋을 제공합니다.
- 데이터셋은 최대 다섯 가지 모달리티를 통합합니다: 약물 SMILES, ICD-10 질병 코드, 텍스트(예: 적합성 기준), 범주형/수치형 피처, MeSH 용어.
- 시계열 분할(학습/검증 8:2 테스트를 후속 시험에 적용)로 보지 못한 시험에 대한 현실적인 일반화를 시뮬레이션합니다.
- Baseline 모델은 모달리티별 아키텍처를 결합합니다: 분자용 MPNN, 텍스트용 Bio-BERT, MeSH 임베딩, GRAM, DANet 블록.
- 표 2는 작업별 데이터셋 통계치를 보고합니다. 예를 들어 시험 기간 예측은 약 141k 데이터 포인트; 다른 항목은 약 62k–43k 범위입니다.
- 저자들은 데이터셋, 지표, 및 벤치마크 모델을 포함하는 공개 리포지토리를 연결된 GitHub 위치에서 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.