QUICK REVIEW

[논문 리뷰] Scaling Clinical Trial Matching Using Large Language Models: A Case Study in Oncology

Cliff Wong, Sheng Zhang|arXiv (Cornell University)|2023. 08. 04.

Topic Modeling인용 수 26

한 줄 요약

이 논문은 대형 언어 모델(LLMs)을 활용하여 종양학 임상시험 매칭의 규모화를 체계적으로 연구하고, 시험 적격 기준의 구조화와 인간-in-the-loop 방식으로의 엔드-투-엔드 가능성 평가에 초점을 맞춘다. GPT-4는 기준 구조화와 매칭 연결에 대해 즉시 사용할 수 있는 강력한 성능을 보여주며, 엔드-투-엔드 EMR 기반 매칭의 개선 가능 영역이 확인된다.

ABSTRACT

Clinical trial matching is a key process in health delivery and discovery. In practice, it is plagued by overwhelming unstructured data and unscalable manual processing. In this paper, we conduct a systematic study on scaling clinical trial matching using large language models (LLMs), with oncology as the focus area. Our study is grounded in a clinical trial matching system currently in test deployment at a large U.S. health network. Initial findings are promising: out of box, cutting-edge LLMs, such as GPT-4, can already structure elaborate eligibility criteria of clinical trials and extract complex matching logic (e.g., nested AND/OR/NOT). While still far from perfect, LLMs substantially outperform prior strong baselines and may serve as a preliminary solution to help triage patient-trial candidates with humans in the loop. Our study also reveals a few significant growth areas for applying LLMs to end-to-end clinical trial matching, such as context limitation and accuracy, especially in structuring patient information from longitudinal medical records.

연구 동기 및 목표

종양학에서 비구조화된 데이터와 수작업 병목 현상을 이유로 임상시험 매칭의 규모화를 추진한다.
LLMs가 최소한의 예시로 임상시험 적격 기준을 구조화하고 매칭 로직을 추출할 수 있는지 평가한다.
미국 대형 건강 네트워크 내의 실제 임상시험 매칭 시스템에 연구를 기반을 두고 검증한다.
대상 기간 길이와 EMR 데이터 추출 등과 같은 성장 영역을 식별하며 엔드-투-엔드 가능성을 평가한다.

제안 방법

Azure OpenAI를 통해 GPT-3.5 및 GPT-4를 적용하여 임상시험 적격 텍스트를 질병 상태, 조직형, 바이오마커에 초점을 맞춘 구조화된 표현(JSON)으로 변환한다.
LLM 출력물을 강력한 생물의학 엔티티 추출 기준(GNormPlus, tmVar, SciSpaCy)과 Criteria2Query 방법과 비교한다.
DNF(Disjunctive Normal Form, 분리합정형)을 사용하여 적격 기준의 전체 매칭 로직 평가를 한다.
사전구조화된 환자 EMR 데이터와 일반 매처를 사용하여 엔드-투-엔드 매칭을 시뮬레이션하고, 이를 골드 등록 데이터와 비교한다.
사람-연루 워크플로우에서 재현율과 해석가능성의 기준점으로 전문가 시스템 기준선을 활용한다.

실험 결과

연구 질문

RQ1최신 LLM이 (복잡한 조직학 및 바이오마커 로직을 포함한) 종양학 임상시험 적격 기준을 최소한의 인-컨텍스트 예제로 구조화할 수 있는가?
RQ2엔티티 추출 및 DNF 매칭에서 LLM 기반 구조화가 이전의 규칙 기반 및 임베딩 기반 기준선과 정밀도/재현율/F1에서 어떻게 비교되는가?
RQ3EMR 컨텍스트 길이 및 PHI 제한에 의해 제약될 때 엔드-투-엔드 임상시험 매칭에 LLM을 적용하는 잠재력과 한계는 무엇인가?
RQ4LLMs를 사용한 엔드-투-엔드 임상시험 매칭에서 어떤 성장 영역(예: 컨텍스트 길이, EMR 구조화 정확도)이 나타나는가?

주요 결과

GPT-4 (제로샷)는 임상시험 적격 기준을 위한 조직학 및 바이오마커 정보를 추출하는 데 강력한 기준선보다 우수하다.
GPT-4 (3샷)는 특히 DNF 형태의 복잡한 매칭 로직에서 성능을 추가로 향상시킨다.
구조화된 입력을 가진 엔드-투-엔드 설정에서 GPT-4는 전문가 시스템에 비해 재현율이 경쟁력 있게 나타나고 일부 기준선을 능가하지만, 재현율의 격차가 남아 있다.
맥락 길이와 종단 간 EMR 데이터의 정확한 구조화는 확장 가능한 엔드-투-엔드 매칭의 주요 성장 영역이다.
이 접근 방식은 확인을 위한 관리 가능한 수의 후보 시험으로 축소할 수 있는 인간-in-the-loop 분류 워크플로우를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.